Q-SYSTEMS

СИСТЕМИ ЗА УПРАВЛЕНИЕ => Управление на качеството => Темата е започната от: keres в 20/02/2008, 13:05

Титла: Практическо приложение на статистически методи
Публикувано от: keres в 20/02/2008, 13:05
Струва ми се, че ще е полезно да започнем една такава тема.
Малко се обръща внимание на прилагането на статистичеките методи в управлението на качеството.
Предлагам ви всеки който има опит в използването на статистически методи да го сподели с другите, чрез реален пример от практиката. Надявам се така да сме си полезни един на друг.
За да дам своя принос за идеята съм описал (в приложените към поста файлове) използването на Диаграми на разсейване - коефициент на корелация (един от Седемте прости метода за управление на качеството). Моля да ме извините ако поясненията ми са прекалено елементарни и повърхности, но направих всичко набързо, пък и е по-добре да е достъпно за всички.

Надявам се идеята ми да ви допадне!
Титла: Re: Практическо приложение на стастически методи
Публикувано от: Nina в 20/02/2008, 15:32
Браво, не съм се сетила, че и в Ексела могат да се правят диаграми на разсейване и да се изчислява автоматично коефициент на корелация. Досега, а по-точно в ХТМУ сме чертали диаграми на разсейване както и хистограми, контролни карти и т.н. на програмният продукт QSTATLAB, който е наистина много-добър. Благодаря ти за инфото.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 20/02/2008, 16:16
Nina,
Ха, откъде изкочи заек... аз съм дипломант на проф. Вучков  :)
Титла: Re: Практическо приложение на стастически методи
Публикувано от: velbon в 20/02/2008, 21:08
keres

Поздравления за темата!
Ще почерпя!

Това е вече нещо наистина сериозно!
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 21/02/2008, 09:22
 :)

Надявам се само, че ще се включат повече хора за да има наистина ефект!
Титла: Re: Практическо приложение на стастически методи
Публикувано от: Nina в 22/02/2008, 11:09
Здравей keres,
вие коя година сте се дипломирали, да не се окаже, че сме колеги. Аз се дипломирах преди 1 седмица.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 22/02/2008, 11:53
Аз се дипломирах през 2004-а  ;)
Титла: Re: Практическо приложение на стастически методи
Публикувано от: iva в 22/02/2008, 14:38
Щом сте подхванали тая тема моля да ми обясни някой от горните колеги какво точно прави програмния продукт QSTATLAB - това, че е за статистичски методи го знам, видях и списък на фирмите, които го използват, но някак си се нуждая някой да ме светне по-подробно какво точно представлява. Видях още, че през март ще има обучение с лектор споменатия професор. Направи ми впечатление, че фирмите използващи са от различни браншове на промишлеността. Например може ли някой да ми каже дали става за мебелни фирми?
Дано някой ми отговори
Благодаря
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 22/02/2008, 14:54
В общи линии информация за продукта можеш да получиш на www.qstat.dir.bg, но тъй като предполагам, че вече си била там ще ти споделя личните си впечатления.
Софтуера е изцяло на български и предлага де що има статистически методи за управление на качеството /е не всички, но най-важните/. Много е удобен и спестява ужасно много време. На сайта има и демо-версия, която можеш да си изтеглиш за да я изпробваш.
Дали може да се използва в мебелна фирма?! Ами да, защо да не може, статистическите методи могат да се използват навсякъде. Лично на мен по-лесно ми е да ги прилагам при производство, отколкото при услуга, тъй като производството предлага повече възможности за събиране на данни. Събереш ли си достатъчно /и подходящи/ данни можеш да направиш чудеса. Но на това програмата няма как да те научи, затова ти препоръчвам да отидеш на курса.

П.С. Към форумския СЕМ - извинявам се, ако постът ми е прозвучал като реклама, не съм целял това  :-\
Титла: Re: Практическо приложение на стастически методи
Публикувано от: L в 26/02/2008, 16:52
Понеже имам изветен опит с прилагане на  статистичеки методи за контрол и управление на качеството, реших и аз да публикувам компетентното си мнение. :)
По отношение на софтуера  бих казал че на пазара има доста програмни пакети предлагащи голям набор от мат. и стат. методи за анализ на данни. Въпросът е за какво , къде, от кого и как ще се използват въпросните пакети.
При прилагане на статистически мотоди за управление на кчеството, аз лично съм работил с:

STATISTICA
MiniTAB
SPC PC IV -(Quality Ameirca)
Qstatlab



Ако някой от вас проявява интрес може да направи един search в google  и да се запознае по-подробно с горепосочените програми.
Това което искам да отбележа е че EXEL не е пригоден за извършване на сложни анализи, още повече за контрол на процеси и упрaваление на качеството. EXEL e порсто spreadsheet за масовия потребител.

По отношение на това дали статистическите методи намират приложения в мебелната индустрия, аз бих отговорил така:
Всяка една дейност е процес, а всеки един процес има измерители (количествени и качествени), тогава какъв е проблема статистическите методи да се използват в различни сфери на дейснот?   
Човек първо  трябва да се запознае теоритично с различните методи за анализ и типове данни, като целта е  да се придобият основни познания  кои методи  се  използват за наблюдение, кои за контрол на качеството, кои за подбрение на процеси(качеството). Има и методи  за моделиране на процеси, както и т. нар. методи за предсказващо управление. (нa angl. predictive control ) 
В тази връзка в последния брой на Инженериг Ревю (Декември 2007) има статия за предсказващо управление, която е интресно да се прочете за обща представа. ( броя е достъпен в pdf формат директно от сайта на TLL media - www.tllmedia.bg)

На колежката Iva бих препоръчал да посети сайта на STATISTICA (www.statsoft.bg / .com) от където може да си свали полезна инфо на бълг. език за различни стат. методи и как те намира приложение при управление на качеството.

Полезен е и сайта на MINITAB ( www.minitab.com), имат доста брошури с примери за success stories при прилагане на стат. методи.  Даже там бях  намерил статия как една община е подобрили времето за обслужване (ремонт) и намяляване на броя на дупките по пътищата  с намаляване на разходите, за което само мога да си мечтая да се случи в БГ  :)

По отношение на примери от моята практиката , мога да дам няколко, но като най-често срещани  проблеми  бих опредил:

 1. Липсващите или грешни данни. Много от фирмите изобщо не управлята и съхраняват правилно потока от данни за различните процеси, да не говорим после как се анализират.
 2. Когато  се прилага  SPC  в недискретно  производство  (т.нар. конторолни  карти), първо то да  не е в реално време  което до известна степен обезмисля самото SPC и второ  при точки извън контрол, като коригиращо действие да се предписва обучение на оператор (персонал).
   





 
 
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 27/02/2008, 10:25
Керес, какво стана с офис 4? Ако си уволнил мениджъра позовавайки се на този посредствен анализ, грях ти се пише на душата. ;D Не си си свършил докрай работата, а и мисля, че условието на задачата е леко объркано.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 27/02/2008, 10:48
Добре дошъл/дошла L!
Защо подценяваш така Excel-чо? Той може много, но не са чак толкова много тези, които са в състояние да го управляват в пълната му функционалност.

Цитат на: L
Когато  се прилага  SPC  в недискретно  производство  (т.нар. конторолни  карти), първо то да  не е в реално време  което до известна степен обезмисля самото SPC и второ  при точки извън контрол, като коригиращо действие да се предписва обучение на оператор (персонал).

Това нещо не можах да схвана добре. ??? Нито първото, нито второто.
Не виждам пречка да се приложи в реално време с-карта (например брой дефекти на линейна единица или единица площ) или Xi/MR-карта, стига разбира се технологическия процес да позволява лесно вземането на систематична извадка (във втория случай n=1) през подходящ период от време.

А защо твърдо заложи коригиращо действие насочено към оператора? Ами ако не е в него причината?
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 27/02/2008, 11:46
otk,
Това беше само идея за прилагане на един прост метод. Имаш данните... ти какво би направил?! Лесно се критикува на посоки... дай нагледен пример! И какво в условието не ти харесва... кажи за да го оправим?

Радвам се че се включи  :) Без теб тази тема щеше да е безсолна  :)
Титла: Re: Практическо приложение на стастически методи
Публикувано от: L в 27/02/2008, 16:37
Аз си поиграх малко с данните, защото ми стана интересно защо в някои от офисите е налице корелация а в други не.
Аз стигам до извода че в  случая се касае за скрита корелация между удовлетвореност на клиентит и трета променлива, най-вероятно брой служители в офис

Keres би получил отговор на въпросите поставени в заключението ако даде повече инфо за

1. Какъв е броя на  заетите служители в различните офиси които имат пряко отношение към удовлетвореността на клиента.
2. Какви са критериите за удовлетворен клиент и еднакви ли са били те за различните офиси
3. Кой е направил оценката им - метод, процедура и т.н. за всички офиси

Питам всичко това, защото ако се сравни средната удовлетвореност на клиентите по офиси се получава че за първите 4 офиса имаме почети еднаква удовлетовреност от 78%, а ако корелираме в абсолютни  стойности (не в %) за всички офиси се получава положителна корелация което си е нормално --- повече  клиенти -повече удовлетворени, очевидно обаче съотношението намалява по месеци например офис 1. За другите гледайки коефициенити  корелацията е много малка и може дори да се твърди че няма таква, изключвайки  разбира се офис 8 и по-малко офис 5. 
Въпроса е колко повече  клиенти влиаят на   натоварването на  на еденица служител от даден сервиз? 


Otk, Добре заварил
 По отношение на EXEL не мисля че писането на макроси е състояние на управление на пълната му функционалност!
По отношение на SPC, просто дадох пример  за често срещани грешки които съм виждал да се правят, но първо мисля че двамата трявба да си изясним какво разбираме под "релано време" и  "лесно вземане на извадка".
Ако се прави SPC  на порцес  за изминалата седмица, който е натворил доста точки извън контрол със скъпа себестойност, мисля че  "реалното време" е доста  закъсняло.  Също така съм срещал често като първопричина да се записва грешка на оператор и последващо  коригиращо действие обучение на оператор, което в 99% от случаите си е да  "отбием номера"
   
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 27/02/2008, 17:14
Цитат на: keres
2. Цел на задачата
Да се установи дали натовареността на служителите влошава качеството на услугата (измерено, чрез удовлетвореността на клиентите) в различните офиси на фирмата и по-специално в Офис 4, чийто Управител твърди това.
Ако се концентрираме само на горното, всъщност условието на задачата е коректно, но ако включим само и единствено резултатите от така направения анализ, рискуваме да направим погрешни заключения. Защото този тип анализи, дават само зависимости, но не водят непременно до установяване на причинно-следствени връзки, които могат да се открият с точно планиран експеримент. С други думи, не можеш да твърдиш със сигурност, че ПРИЧИНАТА за влошеното качество на услугата е увеличеният брой клиенти. То може да се дължи на друга причина, която действа неявно и не е обхваната от това изследване. Още повече, че тук става въпрос за клиенти, чието поведение се диктува и от пазарната конюнктура, която е външна за организацията (а организацията може и да не е позиционирана адекватно на пазара). Но тази причина може да бъде и вътре в организацията, например недостатъчна компетентност на сервизните техници. Малкият брой клиенти води до ограничен вид повреди, които трябва първо да се диагностицират и после отстранят. С увеличаване на клиентите, вероятността техниците да се сблъскват със все по-различни ситуации се увеличава и тогава на преден план излиза професионалната рутина.

Освен това от данните се забелязва наличието на ясно изразена тенденция (тренд) във времето. А проверка за автокорелация?

Не става много ясно и по какъв начин са проведени телефонните интервюта – използвана ли е извадка или са интервюирани ВСИЧКИ клиенти на организацията за посочения период. Ако е използвана извадка, тя трябва да отговаря на условията за представителност. Тогава изниква и въпросът за определяне на стохастичната грешка на коефициената на корелация и неговата статистическа значимост.

А проверката за нормално разпределение? Коефициентът на Пирсън е параметричен критерий и ако разпределението значително се отличава от нормалното е възможно да доведе до грешни резултати, а от там до погрешни заключения.

Изобщо... нещата не са толкова прости, колкото би ни се искало.

Керес, за съжаление нямам много време да задълбавам, само успях да нахвърлям някой нещица. Ти си любознателно момче, сигурен съм, че за момента ще се справиш и сам. Аз също ще се включа с някой примери, но... друг път.

ПП. А... видях, че L и той понаписал нещо, така че ще се справите. Само ми е жал за мениджърчето на офис 4. Да не си иде зян...
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 27/02/2008, 17:22
L,
– макросите в Excel са хубаво нещо, но и без тях могат да се направят доста от нещата, които се използват често в практиката. Въпрос на цели, време и естествено... парички.

– реално време може да означава само едно – сега, в момента. Не сутринта, не вчера, а за миналата седмица, която споменаваш да не говорим. И тук вида на производството (дискретносто или непрекъснато) няма (почти) нищо общо. Общо има УПРАВЛЕНИЕТО НА ПРОЦЕСА.

- лесните извадки са тясно свързани с реалното време ;). И с паричките разбира се.

– възможно е грешката да бъде бъде и в оператора, стига разбира се процесът да е „способен”. Ако пък причината за грешката е ниска квалификация, логично е като коригиращо действие, с което да се отстрани причината да се предпише обучение. Не виждам нищо странно в случая.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: L в 27/02/2008, 17:49
 :)  Иначе казано, при EXEL времето и парите които ще се отделят не си заслужават  качеството което ще се постигне.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 27/02/2008, 18:24
Разбира се, не твърдя че един показател за качество се влияе само от една единствена причина. Аз просто съм имал данни само за една.
За да внеса повече яснота в условието на задачата ще добавя, че интервютата са проведени в свободна форма, като операторите са отбелязвали уводлетвореността на клиентите в следните категории - доволен, доволен със забележка, недоволен и нежелае да посещава повече офиса. Извадката на всички офиси е около 60 %. Броя на служителите във всеки офис е горе долу правопропорционален на натовареността.
Иначе още преди да пусна примера проверих значимостта на коефициента на корелация с критерии на Стюдънт и се получи, че той е значим за Офиси 1, 5 и 8.
Колкото до мениджъра на офис 4... не го мисли otk, той си е все още там и не подозира дори, че е обект на раговора ни  ;)
Титла: Re: Практическо приложение на стастически методи
Публикувано от: L в 28/02/2008, 11:19
В такъв случай  както каза otk e добре да се провери компетентност на служителите и сложността на  сервизните услуги за различните офисис,
Възможно е също  ако е  имало голям оборот на хора в офис 1 , това  да е намалило  сумарната им компетентност.
Ако има как е хубаво да се натрупат още данни и да се копае.
Все пак за да се остановят причините и да се направи прчино-следствена връзка е задължително в анализа  да участват повече хора с различни нива на компетентност от  въпросната фирма.  :)  Работата  в екип е задължителна.


 
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 10/03/2008, 16:19
Цитат на: keres
Разбира се, не твърдя че един показател за качество се влияе само от една единствена причина. Аз просто съм имал данни само за една...

Керес, не си помислил достатъчно върху това, което бях написал преди. А ставаше въпрос за това, че прилагайки само и единствено корелационен анализ не можеш да правиш заключение за наличието на причинно-следствена връзка между факторен и резултативен признак. Подобно твърдение е твърде рисковано, още повече в условията на липса на данни за зависимости на други фактори. И по принцип причинността не се постулира директно от статистиката като наука - тя само помага.

Целта на задачата, да се установи дали натовареността на служителите влошава качеството на услугата в различните офиси на фирмата, изисква много повече. А и мисля, самото противоечие на резултатите го показва.
Това което трябва да направиш е да разшириш факторното пространство и да се потопиш по-дълбоко в мътните води на стратификацията и когато (дали? ;)) изплуваш на повърхността, ако все още дишаш е възможно картинката да започне да се очертава. Тогава зарежи статистиката и започни да мислиш логически. Построй някоя и друга диаграмка тип рибя-кост, Парето,... допитай се до някой "капацитети" и така плъзгайки се внимателно по твърде тънките понякога нишки на причинно-следствените връзки, ВЗЕМИ СВОЕТО ОКОНЧАТЕЛНО РЕШЕНИЕ.

Стига вече да не е твърде късно! ;D
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 10/03/2008, 16:52
тя само помага.
Ами това беше и целта ми!

Честно казано не ми се спори повече. Когато видя нещо твое като анализ тогава бихме могли да продължим темата.
Пък и се измести смисъла на поста. Никой не дава реални, конкретни и цифрови примери и предложения, а само се изреждат да коментират как всичко това е лаишка работа.
Иначе можем да си изреждаме статистически (и нестатистически) методи до полунощ.

Поздрави
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 11/03/2008, 12:37
Керес, не заемай позицията на ощипаната мома. Освен това никой не спори с теб. Ти завърши своето изследване с няколко въпроса, на които аз положих известно усилие да  отговоря. Не ме карай да съжалявам за което. Ако моите отговори не те задоволяват, можеш просто да не се съобразиш с тях. А за в бъдеще да не четеш, каквото otk е написал. Ами ако и otk греши, нали и той е човек, и той душа носи! Все пак, ще положа още малко усилия, за да изясня своята позиция с ясното съзнание, че съществува вероятност просто да не съм бил разбран. Нека синтезирам за последно нещата така.

Цитат на: keres
а. Защо Управителят на Офис 4 ни замазва така очите?
Този въпрос, всъщност е извод, един твърде генерален извод, който нямаш основание да направиш само въз основа на този елементарен анализ.

Цитат на: keres
b. Какво става в Офиси 5 и 8, та резултатите са такива?
Отговорът на този въпрос изисква да се направи много повече от това, което е направено.

Цитат на: keres
c. Какво да направим превантивно в останалите офиси?
Освен че резултатите са недостатъчни, те са и противоречиви. Допитах се до моята кристална топка (завещана ми от моята баба-оракул), но тя нищо не показа. Моят съвет е на този етап да не се прави нищо, защото каквото и да се предприеме на основание така получените резултати, то ще бъде грешка.

Цитат на: keres
d. Какво още ще се сетите
Това, за което се сетих, вече ти го казах. От тук нататък твое е решението да се съобразиш или не с моето мнение. Вариантите са два:
1. Съгласяваш си с мен, от което следват два подварианта:
1.1 Леко преработваш (принизяваш) целите на своето изследване и не го натоварваш прекалено с толкова големи очаквания и сложни въпроси накрая, или
1.2 Довършваш изследването с многофакторен анализ, придружен от необходимите доказателства за адекватна приложимост и съответна статистическа грешка, последван от стратификация на данните, идентификация и анализ на причините и в крайна сметка, логично обосновани отговори на поставените въпроси.
2. Не си съгласен с моите забележки и оставяш нещата такива, каквито са.

Цитат на: keres
Когато видя нещо твое като анализ тогава бихме могли да продължим темата. Никой не дава реални, конкретни и цифрови примери и предложения,...
Не чакай само на otk или на който и да било в този форум. Тук пишат редовно десетина човека. Да не говорим в колко от средностатистическите фирми в България, Големият Бос позволява на служителите да си „играят” с разни анализчета, вместо да „работят здравата”. Та нали за качеството си имаме Сертификат!
Насочи усилията си към необятното интернет пространство, където примери има много – всичките те с конкретни числа. ;). В някой от книгите в „Ресурси” също има примери. Разбира се в областта на УК информация е по-малко и се намира по-трудно, защото е know-how все пак. Но за сметка на това конкретни примери за приложение на статистическите методи в социално-икономическата сфера, колкото щеш.
Порови... осмисли... сподели...
Нали помниш за личния пример – вече го дъвкахме това. ;)

Цитат на: keres
...а само се изреждат да коментират как всичко това е лаишка работа
Керес, по темата сме писали аз, ти и L. Изобщо няма да ти е трудно да покажеш къде в темата е направен коментар, че статистическите методи са, цитирам, „лаишка работа”. Или само разлайваме кучетата?

Цитат на: keres
Иначе можем да си изреждаме статистически (и нестатистически) методи до полунощ.
Май наистина има нужда от по-сериозна теоретична обосновка преди да се хвърлим в практическото приложение на статистическите методи. За да не се чудим после какво по дяволите да правим с така получените „резултати”.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 11/04/2008, 01:26
РЕГРЕСИОНЕН АНАЛИЗ

Днес, в условията на глобално развиващи се пазари и галопиращи технологии, все по-често ни се налага бързо да вземаме важни решения в условията на недостиг на информация. С други думи, обстоятелствата ни принуждават да ПРЕДВИЖДАМЕ.

Корелационният анализ постепенно е загубил своето значение, като самостоятелно приложим метод за анализ на зависимости. Неговият по-голям брат, регресионният анализ, притежава някои предимства, които ще ни помогнат да направим едно научно обосновано предвиждане:
– математическо моделиране на формата на зависимостта;
– количествено измерване на зависимостта.

Понятието регресия е употребено за пръв път от Франсис Галтон (братовчед на Дарвин) във връзка с изследвания на наследствеността. Той установил, че децата наследяват белезите на своите родители, но частично. Например, статистически погледнато се забелязва тенденция родителите с относително по-висок ръст спрямо средния, да имат деца с ръст близък до средния. С други думи твърде вероятно е високите родители да имат също високи деца, но не чак толкова. Тази закономерност Галтон нарекъл регресия, т.е. връщане назад. Днес, терминът е станал нарицателен за един от методите за анализ на зависимостти – регресионния анализ, което в интерес на истината не отразява съвсем точно неговата същност.


Част I. ЛИНЕЙНА РЕГРЕСИЯ


1.1 Въведение

Линейната регресия е най-често използвания метод за анализ при изучаване на взаимовръзките между явленията. Приложението му е обосновано, когато връзката между променливите може да се опише с проста линейна функция.


1.2 Математически модел

Ще се ограничим да разгледаме само еднофакторна линейна регресия. Математическият модел на формата на зависимостта, както подсказва определението ще бъде права линия. Всяка права в равнината, може да се представи с уравнение от вида:

y =s + kx, което се нарича декартово уравнение на права.

s – отрязък – разстоянието, което правата отрязва от ординатата Оy
k = tgα – ъглов коефициент на правата – отразява наклона на правата спрямо абсцисата Ох;

На картинка би трябвало да изглежда така:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg01.jpg)

Колко лесно е при зависимостите от чист функционален тип – на всяка стойност на аргумента, съответства точно една стойност на функцията. Следователно, ако знаем коефициентите k и s, лесно можем да изчислим за всяка стойност на x, съответнитната стойност на y и да построим нашата права в равнината.


1.3 Регресионен модел

Време е да направим връзката между аналитичната геометрия и статистиката, в частност регресионния анализ. За целта да се върнем към вече познатата ни диаграма на разсейване, която ни дава корелационната връзка между две променливи: независима (факторен признак) и зависима (резултативен признак).

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg02.jpg)

Както се вижда от диаграмата, разполагаме с множество точки, които отразяват една статистическа корелационна зависимост. Статистическа, защото е възможно да се установи само при голям брой наблюдения, и корелационна – защото на всяка стойност на независимата променлива, съответстват повече от една стойности на зависимата. Търсената права може да се опише със следния теоретичен модел:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg03.jpg)
където

β1, β0 – коефициенти на модела, които на този етап са ни неизвестни;
ε – грешка на регресията, към която както ще видим нататък ще имаме едно по-специално отношение.

Следователно, задачата има много решения, всяко от които неминуемо ще бъде свързано с някаква неточност (всъщност, макар и възможно, е малко вероятно, когато изследваме непрекъснати случайни величини, при някои от двойките измерената и изчислената величина да съвпаднат). Тогава, къде измежду всички точки да прекараме онази права, която ще опише най-точно търсения от нас регресионен модел?

За наше щастие съществуват математически методи, които успешно се справят с тази задача. Един от най-често използваните е методът на най малките квадрати (МНМК) (приложен за пръв в статистиката път от Карл Гаус), съгласно който апроксимиращата права се прекарва така, щото да е изпълнено условието сумата от квадратите на всички разлики между емпирични и теоретични стойности да бъде минимална, или:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg04.jpg)

където
yi - емпирични стойности на резултативния признак, т.е. тези, които сме получили в резултат на нашите наблюдения (това са точките от диаграмата на разсейване);
ŷi – предвидени стойности на резултативния признак, т.е. тези, които трябва да изчислим по нашия модел или още оценени стойности, както се изразяват статистиците (това са точките, през които трябва да мине правата).
n e броят на наблюденията

Забележка: от тук нататък, оценените стойности ще различаваме по калпачето върху съответния символ. Оценените стойности са винаги някакво приближение на действителните

Нека за по-ясно се опитаме да илюстрираме горното с една картинка:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg05.jpg)

Целта е, прилагайки МНМК за нашата извадка, да изчислим оценките на коефициентите на модела, след което имайки стойностите на независимия фактор (x), да оценим стойностите на резултативния признак (y) и построим нашата права. Следват редица математически операции, които смятам да спестя, а по-любознателните ще намерят из дебелите книги. След малко диференциране, решаване на една система от две уравнения с две неизвестни и някой преобразования, за коефициентите на правата се получава една на пръв поглед стряскаща и една не толкова формули:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg06.jpg)

Да живее софтуера!

Тогава, моделът на търсената от нас права е:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg07.jpg)

β1 вече ще наричаме регресионен коефициент, който показва с колко ще се измени зависимата променлива y, при единица изменение на независимата х
β0 – свободен член

И понеже вече се примирихме, че нашата апроксимираща права няма да отразява съвсем точно изследваната зависимост, а с някаква грешка (минимизирана доколкото е възможно от приложения МНМК), можем да запишем:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg08.jpg)

e е точно онази разлика между емпиричната и теоретичната стойност, която трябваше да бъде минимална, но вече без да я повдигаме на квадрат.Тази разлика се нарича остатък. Въпреки, че остатъците вече изпълниха своята основна роля при прилагането на МНМК, ние все още няма да ги ихвърляме в кошчето (където в реалния живот е мястото на всички остатъци), а като едни истински Плюшкини на статистиката, ще си ги изчислим и приберем грижливо в чекмеджето. С тяхна помощ ще държим под око грешката ε и по нататък ще направим някои важни проверки относно АДЕКВАТНОСТТА на регресионния модел.

И така, най-после получихме така бленувания от нас регресионен модел. Да се чуди човек, колко много се изписа (макар и още повече да се спести) само за една обикновена права. Сега остава в уравнението да заместим вече известните ни оценки на коефициентите на модела β1 и β0 (тези с калпачетата), след което давайки различни значения на независимата променлива х, да предвидим резултата ŷ.

Някой нетърпеливи „изследователи” биха спрели до тук, решавайки че са свършили своята работа, но съществува немалка вероятност да сгрешат. Защото така построен, регресионният модел лежи на несигурността на определени допускания, наложени от границите на нашето познание.


1.4 Важни допускания

Регресионният модел е изведен на базата на няколко допускания – едни от тях важни, други – не толкова. Някой се изпълняват често в действителността, други по-рядко. За част от тях дори съществуват методи за допълнителна обработка на модела, които го правят нечувствителен към неизпълнението им. Принципно погледнато, колкото повече от тези допускания са изпълнени, с толкова по-голямо доверие можем да се отнесем към резултатите от анализа. Един регресионен модел е АДЕКВАТЕН, когато няма алтернативен такъв, който да описва действителната ситуация по-добре. С други думи, при регресионния анализ се прилага принципът на Окам, според който най-простото обяснение е  и най-вярно, докато не се намери друго, по-сложно, което да го опровергае. Ако простият линеен модел се окаже неадекватен, тогава усложняваме нещата и търсим нов от по-висока степен, който при възможност да трансформираме по подходящ начин отново до линеен.
Подробното разглеждане на проблемите свързани с адекватността на модела излиза извън рамките на това кратко описание (по въпроса има написани цели научни трудове). Ето защо, ще се ограничим да изброим само някой от по-важните допускания:

– х и y са непрекъснати случайни величини, представители на силните скали;
– корелационната зависимост между x и y е линейна;
– грешките ε са некорелирани нормално разпределени случайни величини с нулево математическо очакване и еднакви дисперсии σ2 за всяко х.


1.5 Проверки за адекватност на регресионния модел

– анализ на остатъците

Важна информация относно адекватността на регресионния модел може да ни даде визаулният анализ на остатъците. Сега му е времето да ги извадим от чекмеджето, където предвидливо ги бяхме прибрали, защото именно чрез тях ще проверим дали са изпълнени допусканията относно модела. За целта се построяват диаграми на разпределението на остатъците спрямо y, ŷ, x, t. При всички програми, имащи претенциите да правят статистически анализи, това би трябвало да става автоматично. На долната фигура са показани няколко примера за такива диаграми:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg09.jpg)

Диаграма (a) показва адекватен модел от гледна точка на постоянство на дисперсиите. Точките са разположени относително равномерно около и по цялото протежение на абцисната ос.
Диаграми (b-h) показват наличие на различни аномалии в регресионния модел: непостоянни дисперсии, нелинейност, корелации, периодичност – всичките те, ясен признак за съмнения относно адекватността на модела.
Ако стандартизираме остатъците и забележим някой „самотник” да се е кротнал извън интервала (-2, +2), както е показано на диаграма (i), можем да твърдим, че е налице нетипична спрямо останалите стойност. Това може да се дължи на груба грешка в измерването, която значително да изкриви резултатите от анализа. Но е възможно да се дължи и на някакво специфично смущение, което би представлявало интерес за нас като изследователи. Както и при взаимоотношенията с хората, така и тук е по-добре първо да се опитаме да разберем „самотниците”, а не автоматично да ги отхвърлим от обществото, пардон от експеримента.

Разбира се, освен анализа на остатъците, за проверка на адекватността на модела могат да се използват и други статистически инструменти, например: дисперсионен анализ, критерии за съгласие, хистограми, нормални вероятности диаграми.

– значимост на коефициентите на модела

Тук най-важно е да проверим значимостта на регресионния коефициент β1, По този начин ще потвърдим или отхвърлим адекватността на модела от гледна точка на наличието на линейна корелационна зависимост между х и y. Ако β1 = 0, това означава, че не съществува линейна връзка (от което не следва, че изобщо няма връзка – например такава от по-висока степен).
За целта издигаме двете хипотези:

H0: β1 = 0
H1: β1 ≠ 0

Отхвърлянето на нулевата хипотеза трябва да ни подскаже, че има линейна връзка между x и y.

Статистиката
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg10.jpg)
 
следва t-разпределението на Стюдънт с n-2 степени на свобода.

Неизвестната стойност на дисперсията σ2 на случайната грешка ε ще оценим отново с помощта на любимите ни остатъци:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg11.jpg)

Изразът Sxx не е нищо повече от знаменателя на вече познатата ни формулата за изчисление на регресионния коефициент, т.е.:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg12.jpg)

Тогава ако |t0| > t [α/2, n-2], нулевата хипотеза се отхвърля и се приема алтернативната, т.е. регресионния коефициент β1  е статистически значим.


1.6 Интерпретиране на резултатите от анализа

Още в самото начало отбелязахме едно основно предимство на регресионния анализ пред останалите методи за анализ на зависимости, а именно – възможността за количественото измерване на изследваните взаимовръзки. Това предимство ще ни помогне да ПРЕДВИЖДАМЕ с определена вероятност стойностите на резултативния признак (y), чрез задаване на стойности на факторния признак (x).

А защо не и обратното – по така изведения модел, задавайки стойности на (y), да предвидим тези за (х)?
Грешка! За разлика от функционалните уравнения, статистическите модели не са обратими. Веднъж построен, моделът (x.y) описва тази връзка еднопосочно. Ако искаме да предвиждаме (х) по (y), е необходимо да построим нов регресионен модел (y.x), прилагайки МНМК отново, но спрямо (х).

Някой може би ще се изкушат да попитат: а защо не разширим хоризонта на предвиждането отвъд границите на получените стойности за (х), т.е да се опитаме да ПРОГНОЗИРАМЕ?.
Трябва да отбележим, че подобни прогнози са възможни, но обикновено са несигурни, а понякога и безсмислени.
Регресионният модел НЕ Е непременно валиден при провеждането на екстраполационни процедури. Естествено могат да се предприемат някой действия в посока валидиране на модела за едно конкретно приложение. Каквото и да се прави обаче, получените резултати трябва да се тълкуват много предпазливо, особено aко сме се отдалечили доста от интервала на стойностите за (х) получени при експеримента.
Не ме питайте защо, а си спомнете за момента, когато синоптиците за пореден (но не и последен) път разбиха на пух и прах вашите планове за дългоочакваната и така бленувана почивка.

Както и при корелационния анализ, така и тук можем да установим само дали съществува зависимост между двете променливи, но не и да правим генерално заключение за наличие на причинно-следствена връзка между тях. Само точно планиран експеримент, включващ и характерни аналитични методи от областта на науката, където се прилага регресионния анализ, може да установи коя от изследваните величини се явява причина и коя следствие.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 11/04/2008, 01:36
1.7. Пример*

Проведени са опити с цел да се установи дали съществува зависимост между съдържанието на въглеводороди (x) в обема на кондензатора и чистотата (y) на получения чрез фракционна дестилация кислород. Обемът на направената извадка е n=20.

No   Y %   X %

1   90.01   0.99
2   89.05   1.02
3   91.43   1.15
4   93.74   1.29
5   96.73   1.46
6   94.45   1.36
7   87.59   0.87
8   91.77   1.23
9   99.42   1.55
10   93.65   1.40
11   93.54   1.19
12   92.52   1.15
13   90.56   0.98
14   89.54   1.01
15   89.85   1.11
16   90.39   1.20
17   93.25   1.26
18   93.41   1.32
19   94.98   1.43
20   87.33   0.95

а) да се установи съществува ли корелационна зависимост между данните за x и y;
б) да се построи подходящ регресионен модел и провери за адекватност;
в) да се предвиди каква ще бъде чистотата на получения кислород при количество на въглеводородите 1.5%.

_____________________________
* по Montgomery, Peck and Vining


Решение

За изчисленията може да се изпозва:
– джобен калкулатор – мъка-а-а!!!;
– on-line калкулатор – например www.xuru.org/rt/LR.asp
– електронна таблица (ако притежава подобна функционалност) – например MS Excel, чрез Data Analysis ToolPak (възможно е да не е инсталиран!). Намира се в Tools -> Data Analysis. От списъка с инструменти избирате Regression.
– специализиран софтуер за статистически изследвания.


а)
Първата ни работа ще бъде да пуснем по една хистограма за данните от извадката. Ей тъй, за всеки случай, за да сме спокойни, че няма някакви фрапиращи аномалии в разпределението. Винаги е добре това да бъде първата наша стъпка, естествено ако разполагаме с достатъчно количество данни. Още повече, че ако разполагаме и с подходящ софтуер, трудоемкостта на изчисления не е никакъв проблем.

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg13.jpg)

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg14.jpg)

След което построяваме диаграмата на разсейване и пред очите ни се разстила една добре отъпкана и относително права пътечка от точки.

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg15.jpg)

Коефициентът на корелация r = 0.9367 и е статистически значим. Следователно можем да заключим, че е налице  силна положителна корелационна връзка между x и y. С увеличаване на процентното съдържание на въглеводороди в кондензатора, се увеличава и чистота на получения кислород, като изменението на факторния признак обяснява приблизително 88% от общото изменение на резултативния признак.


б)
Ако използваме софтуер, регресионният модел ще получим лесно. Необходимо е само да включим опцията за „fit”-ване (разбира се линейно, защото пътечката изглежда относително права).

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg16.jpg)

Уравнението на нашия регресионен модел е y = 74.283 + 14, 947x.

Адекватността на модела ще проверим по два от няколкото възможни начина:

- чрез анализ на остатъците
Нека погледнем две от диаграмите на остатъците –  e-ŷ и e-x:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg17.jpg)

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg18.jpg)

Вижда се, че всички остатъци са относително равномерно разпределени по хоризонталната ос и не се забелязват единични екстремални стойности извън интервала (-2, +2).

- чрез значимостта на коефициента на регресия
t = 11.352 > t [0.025,18]= 2.101 (tизч. е доста далеч от критичната граница на t)
Следователно, емпиричните данни не дават основание да се приеме нулевата хипотеза за вярна и за това тя се отхвърля в полза на алтернативната: коефициентът β1 е различен от нула. Тогава, при приетото ниво на значимост α, с 95% сигурност можем да твърдим, че интервалът (12.181 – 17.713) съдържа истинската стойностит на β1. Следователно, построеният регресионен модел описва една линейна зависимост.


в)
Предвидената стойност за x=1.5 ще изчислим, като го заместим в уравнението на модела:
y = 74.283 + 14, 947.1,5 = 96.704
При приетото ниво на значимост α, с 95% сигурност можем да твърдим, че при съдържание на въглеводороди в кондензатора 1.5%, на изхода ще получим кислород с чистота в интервала (95.72 – 97.69) %.

Да разширим малко условието на задачата и проверим каква чистота за кислорода можем да очакваме при х=1.6. Това е стойност извън интервала на разглежданите стойности на х, т.е. правим прогноза:
y = 74.283 + 14, 947.1,6 = 98.199
Доколкото диаграмата на разсейване не показва някакви асимптоматични наклонности в горния край на интервала за х, можем да допуснем, че линейната регресия ще се запази и малко след последната ни известна стойност за х, т.е. направената прогноза ще бъде вярна със същата вероятност. Едно такова заключение обаче, не почива на никакви  доказателства.

Нека се „изхитрим” и проверим какво ще се получи при х=1.8?
y = 74.283 + 14, 947.1,8 = 101.188
Получената стойност е напълно лишена от логически смисъл, защото е по-голяма от 100%. Последното трябва да ни наведе на мисълта, че трябва да внимаваме много, когато екстраполираме статистически зависимости.

Задачата е решена. А сега накъде?

Нека най-накрая да оставим статистиката настрана и надзърнем за малко в конкретната област на приложение на този примерен регресионен анализ. Видно е, че изследването е тясно свързано с индустриалната химия и по-точно с технологическия процес за производството на кислород.

Като изходна суровина за промишленото производство на кислород се използва… естествено въздух. Различието в температурите на кондензация на компонентите на въздуха, прави възможно тяхното сепариране при определени условия. Прилагат се различни методи на фракционна дестилация, като в резултат, на изхода на процеса се получават кислород и азот с различно качество (чистота). Това е така, защото освен основните си съставки (приблизително 78% азот, 21% кислород и под 1% аргон), въздухът съдържа и различни примеси като въглеродни окиси, инертни газове, въглеводороди и др., които понякога са нежелани в състава на кислорода. За тяхното отделяне се прилагат допълнителни методи на абсорбция, адсорбция, катализа, криогенна обработка. Точно за едни от тези примеси, въглеводородите (главно метан), става въпрос в изследването.

Защо ни беше необходимо това може би скучно за някой отклонение?
За да повдигнем поне мъничко завесата закриваща истинската същност на нещата, която се крие зад всички тези числа, с които боравихме досега. Без да се позоваваме на резултати от конкретни физични и химични изследвания (инженерите-химици, които се занимават с производство на кислород със сигурност са запознати с тях), ще направим едно заключение за наличие на следната причинно-следствена връзка:
високата чистота на получения кислород на изхода на кондензатора се дължи на ефективен процес на пречистване, резултат от който е увеличеното съдържание на въглеводороди вътре в обема на кондензатора.

Надявам се да усетите тънкия момент, че въглеводородите сами по себе си НЕ СА причина за повишаване чистота на получения кислород. Ако прибавим допълнително количество от тях в обема на кондензатора, можем ли да очакваме по-качествен продукт на изхода?
Не разбира се. Защото истинската причина вероятно се крие в някой от параметрите на процеса на пречистване, който го е направил по-ефективен.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 11/04/2008, 10:15
Благодаря otk! Дано си успял да поспиш  :)

Едно нещо не ми стана ясно
Тук най-важно е да проверим значимостта на регресионния коефициент β1, По този начин ще потвърдим или отхвърлим адекватността на модела от гледна точка за наличието на линейна корелационна зависимост между х и y. Ако β1 = 0, това означава, че не съществува линейна връзка (от което не следва, че изобщо няма връзка – например такава от по-висока степен).
За целта издигаме двете хипотези:

H0: β1 = 0
H1: β1 ≠ 0

Отхвърлянето на нулевата хипотеза трябва да ни подскаже, че няма линейна връзка между x и y.

- чрез значимостта на коефициента на регресия
β1 = 11.352 > t [0.025,18]= 2.101
Следователно, емпиричните данни не дават основание да се приеме нулевата хипотеза за вярна и за това тя се отхвърля. За вярна се приема алтернативната хипотеза: коефициентът β1 е различен от нула.

До колкото разбирам си формулирал хипотезите по еднакъв начин и в теорията и в примера, който си дал.

H0: β1 = 0
H1: β1 ≠ 0

Първият път казваш, че ако коефициентът е равен на нула няма линейна връзка. После казваш, че отхвърлянето на нулевата хипотеза H0: β1 = 0 (респективно тогава другата е вярна) означава, че няма линейна връзка между х и у. Последното се подкрепя и от примера който си дал. Коефициентът е различен от 0 и има силна положителна зависимост.

Има ли грешка или аз нещо не разбирам?

Поздрави
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 11/04/2008, 11:12
Нулевата хипотеза твърди, че регр. коефициент е нула. Замести неговият еквивалент k в уравнението на правата с нула и ще получиш ф-я от вида y=const (права успоредна на оста Оx). Това прехвърлено върху регресионния модел означава само едно: няма корелационна връзка. Когато отхвърлим нулевата хипотеза и се съгласим с алтернативната, следва че коеф. е различен от нула, т.е имаме линейна зависимост.
И на двете места твърдя едно и също. Просто нулевата хипотеза в случая се явява противоположното на това, което искаме да докажем.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 11/04/2008, 11:55
Съгласен съм, но това не е ли противоположното на това:

H0: β1 = 0
H1: β1 ≠ 0

Отхвърлянето на нулевата хипотеза трябва да ни подскаже, че няма линейна връзка между x и y.

Още повече, че сега казваш (и съм съгласен) това:

Когато отхвърлим нулевата хипотеза и се съгласим с алтернативната, следва че коеф. е различен от нула, т.е имаме линейна зависимост.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 11/04/2008, 12:02
Разбрахме се. Тука има, тука нема...
Техническа грешка. Ще го оправим

ПП Или едното "няма" трябваше дастане "има",
или "отхвърлянето", трябваше да стане "приемането".
Предпочетох първото.

Керес, благодаря за поправката!
Назначен си официално за редактор на отк.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: keres в 11/04/2008, 12:24
 :)
Не знам... голяма отговорност си е това... редактор на otk  :)

Поздрави
Титла: Re: Практическо приложение на стастически методи
Публикувано от: L в 14/04/2008, 12:09
ОТК, показания пример е  много полезен. Данните и решението , твоя заслуга ли  са?  Какъв софтуер е използван за решаване на задачата?

10x предварително!

 
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 23/12/2008, 01:13
Част II. НЕЛИНЕЙНА РЕГРЕСИЯ*

2.1 Въведение

Наивно е да се смята, че многообразните връзки между заобикалящите ни явления могат да бъдат обяснени единствено с помощта на един-единствен универсален модел. Макар линейната регресия да се използва успешно за изследване със задоволителна за практиката точност на една голяма част от интересуващите ни връзки и зависимости, тя не е в състояние да обясни адекватно редица взаимодействия подчиняващи се на едни по-сложни КРИВОЛИНЕЙНИ закономерности. Ако линейният модел се окаже неадекватен на действителността, не ни остава нищо друго освен да го изоставим и потърсим друг по-подходящ модел, естествено отново с помощта на… математиката.


* Всъщност това наименование не е съвсем точно, но поради широкото разпространение, включително и в сериозни източници ще използваме него. В действителност, една линия (в общия случай) може да бъде права или крива, затова правилният термин според мен е „криволинейна регресия”.


2.2 Математически модел

С изучаването на функционалните зависимости се занимава специален клон на математиката – математическия анализ. Ние няма да задълбаваме чак толкова и ще се ограничим до разглеждането на някой елементарни математически функции (повечето изучавани в средното училище), които са получили широко приложение за решаването на различни задачи в практиката. Такива функции са степенна, показателна, експоненциална, логаритмична, параболична, хиперболична и други, както и някои комбинации между тях.

Ето няколко примера:
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg20.jpg)
a, b, c, d… – коефициенти


2.3 Регресионен модел

Коя от всичките тези функционални зависимости ще бъде подходяща за основа на един бъдещ нелинеен регресионен модел? Не ми е известно съществуването на някакъв универсален метод за обоснован избор на крива на този ранен етап от изследването. От изключителна важност е да имаме на разположение някакви данни за характера и логическата същност на изследваната зависимост в конкретната област на приложение на регресионния анализ, което би ни предпазило от евентуалното допускане на грешка още в самото начало. Често се случва обаче, да не разполагаме с подобна информация и тогава единственото, с което трябва да се задоволим е познатата ни диаграма на разсейване. С надеждата да ни подскаже накъде евентуално ще се „завърти” кривата.

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg21.jpg)

В горната диаграма например, може да се забележи една относително по-стръмна лява част за малките стойности на х, в сравнение с лекичко изтеглената към по-големите стойности на х дясна част (за да стане по-очевАдно, съм маркирал областите с две червени елипси).

Ето и няколко примерни апроксимации:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg22.jpg)

Виждаме, че графичните изображения на някои от функциите си приличат твърде много и изборът на конкретна крива само и единствено чрез визуална оценка понякога може да се окаже трудна задача. Срещат се и ситуации, в които точките от диаграмата са така подредени, че е невъзможно да се прецени дори с коя регресия да започнем – линейна или нелинейна. Ето защо е важно освен набито око, изследователят да притежава и необходимата теоретична подготовка.

Няма как, ще трябва отново да понапишем няколко формули. Обещавам техният брой да бъде минимален, а за да не заспят някои по време на изложението, част от „сухата” теория предпочитам да разгледаме така да се каже „в крачка”, по време на решаването на някой пример.


Ще започнем с една опростена, но твърде важна класификация на нелинейните модели. Независимо от своето разнообразие, те могат да се класифицират в две основни групи:

а) нелинейни само по отношение на независимите променливи x;

Такива са например моделите:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg23.gif)
и др.

Тези модели описват съответно параболична и хиперболична зависимост. Въпреки може би стряскащите за някой наименования – без паника! Това са относително по-лесните за приложение нелинейни модели (наричат се още ”квазилинейни”). Макар и нелинейни в своята графическа същност, те имат близка “родствена връзка” с нашия стар познат от Част I. Например, ако се вгледаме по-внимателно в първия от тях ще видим, че той се различава от линейния само по наличието на още един член от втора степен. Подобно е положението и при втория модел, ако вместо за 1/х си мислим за х’=1/x.

Без да се впускаме в математически подробности беше необходимо да направим това ВАЖНО уточнение, защото то е крайъгълният камък, който ще ни покаже накъде да продължим. Един от възможните пътища би трябвало да ни е познат, защото вече сме вървели по него – оценките на регресионните коефициенти на моделите от тази група могат да се изчислят с помощта на метода на най-малките квадрати (МНМК) така, както го направихме при линейната регресия. Формулите разбира се различават малко, но принципът на тяхното извеждане е същия.
Да си припомним, че съгласно този метод ще прекараме търсената крива измежду всички точки от диаграмата на разсейване така, че да е изпълнено условието:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg04.jpg)

Например за хиперболичния модел, оценките на коефициентите ще намерим чрез следните формули:
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg24.gif)

б) нелинейни по отношение на коефициентите β

Такива са например моделите:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg25.gif)
и др.

– Една част от тези нелинейни модели също притежават „родствена връзка” с линейните. Само че по-далечна и не толкова явна. За да я видим е необходимо тяхното „родословно дърво” да се анализира по-подробно. За целта моделите се подлагат на някои математически преобразования, които ги ТРАНСФОРМИРАТ в линейни по отношение на коефициентите. Така тяхната „скрита” линейност излиза наяве, което ще ни даде възможност да приложим МНMК за определяне оценките на регресионните коефициенти по същия начин, както го направихме при линейната регресия. Тъй де, толкова много усилия положихме за да се научим да прилагаме този метод – няма да се дадем лесно! Ще продължаваме да опитваме с този подход докато „номерът все още минава”.

И така, трябва да открием в кои от показаните по-горе отвратително изглеждащи нелинейни модели се е спотаил нашия любим познат – простичкият и изящен линеен регресионен модел. За целта първо ще си припомним някои математически операции предимно за работата с логаритми, с помощта на които да трансформираме нелинейния модел за да разкрие той своята „скрита” линейност. В зависимост от модела подходът е различен, но ето един пример за логаритмична трансформация:

Имаме нелинеен експоненциален модел от вида
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg26.gif)

Логаритмуваме лявата и дясна част на уравнението
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg27.gif)

и получаваме линейния модел
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg28.gif)

Към него прилагаме МНМК, но така че да минимизираме разликите на логаритмите на y и ŷ, а не на първичните данни, т.е.:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg29.gif)

След някои пресмятания получаваме търсените формули за оценките на регресионните коефициенти:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg30.gif)

Ако антилогаритмуваме линейния модел, ще се върнем към оригиналния нелинеен такъв с вече известните ни оценки на регресионните коефициенти
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg31.gif)

Забележка: e = 2.718… е ирационалната основа на натуралния логаритъм или още т. нар. неперово число. Да не се бърка с означените по същия начин остатъци!


За домашно: В показаните нелинейни модели има и други, които откровено „прикриват” някои линейни характеристики в своята „автобиография”. Изобличете ги!

– При други модели от тази група задачата с трансформациите не е толкова проста, a класическия подход за прилагане на МННК чрез непосредствено диференциране на системите уравнения и намиране на конкретни аналитични изрази (формули) чрез които да изчислим оценките е свързан с редица трудности. В тези случаи се прилага друг подход за изчисление на оценките на регресионните коефициенти, в основата на който са числените методи (например методът на Гаус-Нютон). По същество тези методи са итеративни и изискват значителен изчислителен ресурс. Поради това, приложението им без използването на специализиран софтуер може да се окаже изключително трудоемко. Повече информация относно този начин на изчисление любознателните могат да намерят в специализираната литература.


2.4 Важни допускания

Логично е да допуснем, че за нелинейните регресионни модели, за които прилагаме МНМК (директно или след трансформация) ще важат същите ограничения характерни за линейните модели (виж Част I). Естествено трябва да се изключи изискването за наличие на линейна връзка между x и y в оригиналния модел.

При някои нелинейни модели обаче е възможно да не са спазени част от ограниченията. Например:
логистичните регресионни модели се прилагат и за прекъснати (дискретни) променливи представители на слабите скали (например от типа ГОДНО/НЕГОДНО), при които освен това нито едно от изискванията за грешките не е изпълнено;
– изискването за постоянство на дисперсията на грешките обикновено не е спазено и при асимптоматично клонящите към някаква стойност нелинейни модели (напр. експоненциалните). Типично за тях е, че дисперсиите за случаите в близост до асимптотата се различават от останалите.

Изходът от подобни ситуации трябва да се търси в използването на други методи и техники, които да са в състояние да коригират до известна степен тези несъответствия. Например:
– за оценка на коефициентите при логистичната регресия вместо МНМК се прилага методът на максималното правдоподобие (ММП) в комбинация с итерационни процедури;
– трансформацията при някои нелинейни модели може да стабилизира вариациите на дисперсията на грешките в трансформирания модел;
– по-надеждни оценки при непостоянни дисперсии се получават с използването на претеглен метод на най-малките квадрати (ПМНМК), който за разлика от класическия, „претегля” стойностите и изчислява оценките давайки приоритет на тези с по-малка дисперсия, т.е. на по-сигурните.

Разкриването на същността на споменатите по-горе методи и техники излиза извън скромните цели на настоящето писание. Подробности любознателните могат да намерят в специализираната литература.

Все пак, запомнете поне за съществуването на споменатата логистична регресия. Тя е важен инструмент при редица изследвания в различни области, като: социология; икономика; маркетинг; медицина; фармацевтика; изкуствени невронни мрежи и др. Затова по-нататък, когато имам възможност ще се опитам да ви запозная съвсем накратко с нейното практическо приложение чрез един ужасяващо реалистичен пример.

Можем да обобщим, че нелинейните регресионни модели ни дават една по-голяма свобода на действие в сравнение с линейните, за което обаче понякога се плаща и по-висока цена.


2.5 Проверки за адекватност на регресионния модел

Да кажем няколко общи думи и за диагностицирането на нелинейните модели. Подобно на линейните, те също страдат от разни болести, че даже и повече. Някои типични техни болежки бяха споменати в предходната точка. Също там бяха препоръчани и възможни терапии (извинявам се за медицинските термини, но то е по причина, че докато пиша с едното ухо долавям от телевизора ожесточена дискусия относно поредната шантава диагноза поставена от д-р Хаус).

Често срещана ситуация е два или повече модела да покажат признаци за адекватност от гледна точка на изпълнение изискванията за прилагане на МНМК. Тогава изниква въпросът кой от тях е най-добър? За прецизния избор на окончателен модел могат да се използват както познатите ни графични методи (визуална оценка на диаграмите на разсейване и на остатъците), така и аналитични методи използващи различни критерии (R2, Cp, AIC и др.), а също и комбинация от двата подхода. При всички случаи, изследователят трябва да се ръководи в своя окончателен избор от предмета и целите на изследването (какво се очаква от модела), като се стреми да се придържа към принципа на Окам (възможно по-прост модел, с минимален брой променливи).

Графичният анализ на остатъците обикновено се прилага по същият начин, както при линейната регресия, но при някои нелинейни модели се налага остатъците да бъдат модифицирани по подходящ начин преди да успеем да изкопчим полезната информация, която носят със себе си.

Значимостта на регресионните коефициенти може да се провери, както при линейната регресия – изчислената оценка на коефициента се разделя на стандартната грешка и резултатът се сравнява с подходяща тестова статистика. Трябва да се има предвид, че при нелинейната регресия, оценката на стандартната грешка, която се използва за проверката значимостта на регресионните коефициенти понякога може да се получи изместена, но когато обемът на извадката е достатъчно голям, това изместване обикновено е в приемливи за практиката граници.
Прилагат се и други подходи, които при определени обстоятелства дават по-добри резултати.

Малко общи приказки написах в тази точка, но мисля за повечето от вас вече стана ясно, че при нелинейната регресия нещата не са толкова еднозначни и е невъзможно да бъдат изчерпани само с няколко абзаца. Обикновено се налага да реагираме на принципа „според зависи”, затова преди да предприемете нещо конкретно, направете справка в специализираната литература относно неговата адекватност.


2.6 Интерпретиране на резултатите от анализа

Принципно погледнато, написаното за линейната регресия относно интерпретацията на резултатите важи и за нелинейната. Но съществуват и някои особености.

Тук с още по-голямо внимание трябва да се отнасяме към предупреждението за екстраполация на модела. Част от нелинейните модели притежават т. нар. локални екстремуми (минимуми или максимуми) – това са стойности, за които кривата променя своята посока. И ако един такъв екстремум се е „замаскирал” нейде около крайните стойности на наблюдаваната независима променлива, лесно можем да се досетим до какви груби грешки може да доведе едно невнимателно екстраполиране, дори когато става въпрос за съвсем близки прогнози.
Ето защо, силно препоръчително е в подобни ситуации изследователят да валидира нелинейния модел, като предостави обективни доказателства за неговата способност да бъде използван като инструмент за съставяне на прогнози. Такива доказателства могат да бъдат: допълнителни опити извън интервала на съществуващите в посока на интересуващата ни екстраполация; позоваване на минали експериментални данни или сравняване с подходящи теоретични модели; използване на специални процедури за кръстосано валидиране (т. нар. cross-validation) и др.

Необходимо е да се внимава и при тълкуването на регресионните коефициенти. За разлика от линейните функции, които са по-лесно разбираеми дори и за неспециалисти, нелинейните не са толкова интуитивни и липсата на някои дори елементарни математически познания може да доведе до груби грешки в тяхното интерпретиране, а от там и до погрешни изводи.

Важно е да се знае, че при нелинейната регресия МНМК и ММП не винаги осигуряват неизместени и ефективни** оценки, когато обемът на извадката е малък. Поради тези причини, интерпретацията на резултатите, отнасящи се до доверителни интервали и проверка на хипотези трябва да се извършва предпазливо и с презумпцията, че при малък брой наблюдения те могат да бъдат по-несигурни в сравнение с линейната регресия. Разбира се съществуват и се прилагат съвременни методи, които за разлика от класическите са по-малко чувствителни към подобни проблеми, но това в общия случай усложнява нещата, а резултатите в крайна сметка не винаги придобиват достатъчна за целите на изследването сигурност. Може би по-добрият подход  e консервативният: винаги когато имаме основание да очакваме нелинейна връзка между изследваните величини, по възможност да осигурим извадка с по-голям обем. Колко точно, не може да се каже еднозначно, но е желателно да бъде с n>50. Причината да се стремим към по-големи извадки при нелинейната регресия е, че ако оценките се получават изместени, с увеличаването на n това изместване постепенно намалява и оценката клони асимптотично към действителната стойност.

За съжаление, това е част от цената, която трябва да платим за свободата на действие, предлагана ни от нелинейните регресионни модели. Но не е ли този проблем фундаментален за цялото ни общество? Необходимо ли е да се разделим с част от свободата си, за да имаме повече сигурност? Не е ли това една твърде висока цена?

Спирам дотук, защото нататък статистиката не може да помогне.


** Неизместеността и ефективността са важни свойства на статистическите оценки. Първото показва доколко оценката съвпада с действителния (търсения) параметър, а второто сравнява оценките по тяхното разсейване. Други свойства на оценките са състоятелност и достоверност. За повече информация виж специализираната литература.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 23/12/2008, 01:27
2.7 Примери

Първи пример

Хмм, чудя се как да го започна...

Чувствам се малко в неловка ситуация, защото се налага да употребя две думички придобили почти сакрално значение в нашия форум1). От друга страна обаче, някои потребители са прекалено чувствителни към тези думи и открито се дразнят, когато ги чуят да излизат именно от моята уста. Страхувам се да не бъда обвинен (отново), че манипулирам аудиторията (разбирай общественото мнение) използвайки даденото ми от Бога и Ца..., пардон Админа служебното положение на модератор.

Добре де, няма да дразня излишно общественото мнение щото съвсем скоро идват избори. Ще се разберем така – когато трябва да изговоря някоя от тези две думички, ще го правя тихо, почти шепнешком. Да ме простят старите от аудиторията, които сигурно и без това недочуват.
Уф... колко съм несъобразителен, та аз в момента пиша в един виртуален интернет-форум! Как е възможно човек да пише шепнешком?!
Как-как...? Ами… така-а-а – ще напиша тези думички с мно-о-о-го ситен шрифт. Те... старите май пак ще са в неизгодна позиция, щото освен че недочуват сигурно и недовиждат, ама... к’во да се прави – старост-нерадост, както е казал народа.

– В този пример отново ще стане дума за индукция и дедукция – плахо започвам аз.
– О-о-о-о, пак ли…? Модератор-манипулатор! У-у-у-у...! – долавям освирквания откъм аудиторията. За мое щастие единични и не чак толкова мощни. Но все пак съм леко притеснен…
– Излишно задълбаваш, истината е винаги по средата – лаконично успокоява някой от средата на залата. Този глас ми е познат, той винаги идва от едно и също място, нейде в средата на залата. Защо ли обаче не въздейства успокояващо на чувствената ми душа, която вместо да се отпусне върху спокойните вълни на посредствеността, започва да се мята насам-натам в още по-ожесточено преследване на така хлъзгавата понякога истина.
– Остави, губиш си времето. Няма смисъл – вятър работа е това! – подхвърля загрижено един песимист, кой знае защо заел място в челните редици на аудиторията.
Следват и няколко одобрителни възгласа, от които набирам плахо смелост и започвам, хващайки се за последната фраза като удавник за сламка:
– Вятър ли чух? Добре тогава, нека се ослушаме и чуем какво ще ни каже вятъра, защото

The answer is blowin' in the wind2)

В началото бяха... данните3).
Проведени са измервания за да се установи формата на зависимостта между скоростта на вятъра и получената на изхода на генератора електрическа мощност на една вятърна турбина.

No   Y, kW      X, m/s

1   1.582      5.00
2   1.822      6.00
3   1.057      3.40
4   0.500      2.70
5   2.236      10.00
6   2.386      9.70
7   2.294      9.55
8   0.558      3.05
9   2.166      8.15
10   1.866      6.20
11   0.653      2.90
12   1.930      6.35
13   1.562      4.60
14   1.737      5.80
15   2.088      7.40
16   1.137      3.60
17   2.179      7.85
18   2.112      8.80
19   1.800      7.00
20   1.501      5.45
21   2.303      9.10
22   2.310      10.20
23   1.194      4.10
24   1.144      3.95
25   0.123      2.45

За изчисленията може да се използва:
– джобен калкулатор – мъка-а-а!;
– online калкулатор – например http://www.colby.edu/chemistry/PChem/scripts/lsfitpl.html (трябва да имате инсталиран Java Plugin за браузъра);
– електронна таблица (ако притежава подобна функционалност) – имайте предвид, че вграденият Data Analysis ToolPak в MS Excel 2003 пресмята само линейни регресии. Обаче всеки от нелинейните модели, използвани в този пример, може да се трансформира в линеен и да се използва функционалността на този модул. Друг подход е да се съставят необходимите за изчисленията формули и съответните графики ръчно, с помощта на стандартните функции в Excel. Разбира се нещата могат да се автоматизират, ако се използва вградения програмен език VBA;
– специализиран софтуер за статистически изследвания – SPSS, Statistica , Minitab и др.

Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 23/12/2008, 01:28
Въвеждаме данните в софтуера и започваме с добре известната ни диаграма на разсейването:
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg32.jpg)

Това, което се вижда на диаграмата и високата стойност на коефициента на корелация r=0.94 показва недвусмислено, че е налице силна положителна корелационна връзка между скоростта на вятъра и мощността на генератора. Забелязваме една добре оформена, но леко изкривена пътечка от точки, което би трябвало да ни хвърли в съмнения дали връзката между изследваните величини наистина е линейна? Една такава чисто визуална оценка на диаграмата на разсейване обаче съдържа в себе си неизбежен елемент на субективност, затова нека започнем с известните ни досега регресионни модели по ред на номерата.

1) Най-напред пробваме с линеен модел y = β0 + β1.x

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg33.jpg)

За да не губим излишно време в пресмятания, ще се насочим направо към проверка на адекватността на избрания модел чрез познатият ни графичен анализ на остатъците. Ето как са се подредили те спрямо независимата променлива х:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg34.jpg)

Остатъците показват, че подозренията ни са основателни. Точките не са разпределени случайно, а корелират около някаква крива, което е сигурен признак за НЕАДЕКВАТЕН регресионен модел. Подобна аномалия в подреждането обикновено е индикатор за изпуснат член в модела, от степен различна от единица, т.е. налага се да изоставим линейния модел и да търсим подходящ сред нелинейните. За целта, към линейния модел добавяме още един член от втора степен и
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 30/01/2009, 15:34
2) Получаваме нелинеен параболичен модел от вида y = β0 + β1.x + β2.x2.

Съгласно класификацията, която направихме в теоретичната част, този модел е нелинеен само по отношение на независимите променливи x (или още квазилинеен). Следователно, за определяне на оценките на регресионните коефициенти можем да приложим МНМК по познатия ни начин.

Аналитичният израз на регресионния модел с оценените стойности на регресионните коефициенти е:
ŷ = –1,5559+0,7229.х–0,0381.х2
и има следния графичен вид:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg35.jpg)

На пръв поглед можем да кажем, че тази крива линия следва пътечката значително по-точно, в сравнение с правата. Коефициентът на корелация нарасна на r=0.98, като изменението на факторния признак обяснява приблизително 97% от общото изменение на резултативния признак. Софтуерът показва, че коефициентите са значими. Остатъците също се пренаредиха и изглеждат малко по-добре, макар все още да са далеч от желаното:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg36.jpg)

Аз вятърни генератори на живо съм виждал само отдалеч, обикновено когато съм на път. Но веднъж срещнах един стар рицар, който ми разказа как цял живот е водил битки с вятърни мелници.
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg36_1.jpg)

Същият този рицар накрая ме посъветва да внимавам много с тези ръкомахащи чудовища, защото при тях нищо не било така, както изглежда. Не знам защо, но този негов съвет се загнезди здраво в ума ми и вероятно от тогава датира моята подозрителност към всичко що маха перки из въздуха.

Ето и сега, гледам го този последния регресионен модел, а отвътре ме раздират съмнения, че нещо не е съвсем наред! Да, тази параболична крива определено стои по-добре, отколкото правата линия, но в остатъците все още се забелязва склонност да се подредят около някаква крива линия. Притеснява ме и поведението на линията върху диаграмата на разсейване, особено в двата края на интервала на независимата променлива х. Не мислите ли, че точно там, в краищата, тя проявява някаква странна склонност да напусне пътечката?

Очевидно е, че в горния край при скорост на вятъра около 9.4 m/s, се наблюдава пик на мощността, след което тя започва да спада, независимо че точките от диаграмата показват тенденция за увеличаване на мощността, макар и със забавен темп. Но нека се опитаме да надзърнем какво се случва зад последната ни известна стойност на независимата променлива х. Заместваме в модела с х = 15 и получаваме прогнозната стойност
ŷ = 1,5559+0,7229.15-0,0381.152 = 1.11 kW
Налице е рязък спад в мощността на генератора – от около 2.3kW при 9.4 m/s, на около 1kW при 15m/s. Това е промяна повече от два пъти! По-нататък ще видим, че подобен значителен обрат в стойностите за мощността при тази скорост на вятъра не е в съгласие с теорията за вятърните турбини.

Но защо все пак се получи така?
Защото параболите са криви, които притежават локални екстремуми – в нашия случай, максимум. Това може лесно да се установи, ако намерим първата производна на математическия първообраз на нашия регресионен модел, приравним на нула и полученото уравнение решим спрямо х. Тъй като вярвам, че повечето от вас са внимавали в час по математика в училище и знаят как се прави това, няма да си губим времето с излишни изчисления, а направо ще се възползваме от възможностите на софтуера и ще „отвържем” кривата по оста х, за да видим следната картинка:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg37.jpg)

на която въпросният максимум в горния край вече стана очевАден. При този мащаб по-лесно се забелязва и как апроксимиращата крива не следва много прецизно наклона на пътечката от точки.

При тях нищо не е така, както изглежда. Дали онзи рицар не се оказа прав? Наистина ли е толкоз луд, колкото се опитват да го изкарат някои? Щото виждате ли, борбата с вятърни мелници и разните му там други вятърни чудовища била загубена кауза, сиреч безсмислена. Ама тя тази борба комай е вечна, щото продължаваме да я водим и сега, само дето средствата са различни – днес ние борим съвременните високотехнологични потомци на тези чудовища не с копие, а със… статистика. И макар битката да не се развива в наша полза (дали изобщо може бъде спечелена някога?), няма да подхождаме така пораженчески, а вадим от арсенала следващото оръжие, с което разполагаме и атакуваме чудовището с
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 30/01/2009, 17:05
3) Нелинеен хиперболичен модел от вида y = β0 + β1/x

Този модел също е нелинеен само по отношение на независимите променливи x (квазилинеен). Следователно, за определяне на оценките на регресионните коефициенти можем да приложим МНМК по познатия ни начин. Тези от вас, които смятат с калкулатор или Excel могат да използват формулите от теоретичната част, а разполагащите със специализиран софтуер ще получат модела направо с помощта на вградени функции от рода на nonlinear regression, nonlinear estimation, curve estimation, curve fitting и др. Точното наименование в менютата зависи от конкретния продукт.

Но каквито и инструменти да използваме, ако сме направили всичко както трябва, накрая трябва да получим следния аналитичен израз на регресионния модел с оценените стойности на регресионните коефициенти:
ŷ = 2,9789–6,9345/х,
който има следния графичен вид:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg38.jpg)

Сега вече съм малко по-спокоен – кривата определено „пасва” по-добре на точките. Освен това, тя е лишена от палавия характер на предишната – следва стриктно пътечката в долния й край и проявява асимптотични наклонности в горния – нещо, което както ще видим по-нататък е в съгласие с теорията за вятърните турбини.

Коефициентът на корелация нарасна още и вече е r=0.99, а изменението на факторния признак обяснява цели 98% от общото изменение на резултативния признак.

Да проверим регресионните коефициенти, като приложим принципите от Част I. За целта издигаме съответните хипотези:
H0 : β1 = 0      H0 : β0 = 0
H1 : β1 ≠ 0      H1 : β0 ≠ 0

Ще използваме следните формули:
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg39.gif)

ave – средна аритметична стойност
p – брой на коефициентите в модела

Ако |t| > tкр [α/2, n-p], нулевата хипотеза се отхвърля и се приема алтернативната, т.е. регресионните коефициенти са статистически значими.

Резултатите са:
t(β1) = 33.592 > t [0.025, 23]= 2.069
t(β0) = 66.341 > t [0.025, 23]= 2.069

Емпиричните данни не дават основание да се приемат нулевите хипотези за верни и за това те се отхвърлят в полза на алтернативните: коефициентите на модела са различни от нула и следователно статистически значими при избраното ниво на значимост α=0.05.

Съответните 95% доверителни интервали са:
2.886 ≤ β0 ≤ 3.072
-7.362 ≤ β1 ≤ -6.508

Остатъците също изглеждат по-добре, но при тяхното стандартизиране се пръкна един самотен беглец под номер 20:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg40.jpg)

Това се случи, защото софтуерът е настроен по подразбиране да третира самотниците като такива при ±2σ. В конкретната ситуация положението на самотника спрямо останалите резултати не води до някаква съществена промяна в направлението на апроксимиращата крива. Появата му най-вероятно не се дължи на систематична причина, а на факта, че разпределението на остатъците се отклонява от нормалното. На следващите две диаграми (нормална вероятностна и хистограма) се вижда добре липсата на симетричност в разпределението, заради проточилата се към отрицателните стойности „опашка”.

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg41.jpg)(http://img.photobucket.com/albums/v231/stil/qm/regr/reg42.jpg)

Забележка: Визуалният анализ на остатъците притежава елемент на субективност.При наличие на съмнения е желателно да се направят допълнителни проверки с цел потвърждаване на направените изводи:
– за еднаквост на дисперсиите може да се приложи тест на Brown-Forsythe;
– за нормалното разпределение може да се използва някой от известните статистически критерии за проверка на съгласуваност на емпиричното с теоретичното нормално разпределение, напр. Shapiro-Wilk, Колмогоров-Смирнов и др.
За повече информация виж в специализираната литература.


Нека си припомним, че допускането за нормално разпределение на грешките беше една от важните предпоставки, изпълнението на които осигуряваше висока степен на доверие към регресионния модел. За съжаление, разминаването между нашите очаквания и това, което се случва в реалния живот е често срещана ситуация. Това важи и за статистическите изследвания, когато работим с реални данни. Какъв е изходът от така създалата се ситуация?

Най-напред трябва да направим уговорката, че по принцип заключението за нормално разпределение при малки извадки (каквато имаме в този пример) не може да се приеме с достатъчно доверие. Освен това, различните по вид отклонения от нормално разпределение (несиметрични, остри, полегати, двувърхи и т. нат. хистограми) оказват различно влияние върху сигурността на направените изводи. Като добавим и факта, че различните методи за проверка на хипотези имат различна чувствителност към тези отклонения, става ясно, че няма как да не се съобразим с тези обстоятелства и се налага да проверим доколко установеното отклонение от нормално разпределение на остатъците се отразява на резултатите във всеки конкретен случай. А то се отразява предимно на сигурността на направените изводи в съпътстващите регресионния анализ различни проверки на хипотези.

При отклонение от нормалното разпределение, може да се подходи по няколко начина:
– опитваме с трансформация на променливите х и y (коренуване, логаритмуване, реципрочна и др.) – не винаги води до желания ефект;
– прилагаме подходящи робастни4) методи, които не са толкова чувствителни към отклонението от нормалното разпределение;
– изоставяме текущия модел и търсим друг – ако такъв съществува и не е прекалено сложен за прилагане и интерпретиране;
– провеждаме ново изследване с по-голям обем на извадката – не винаги е физически възможно или икономически изгодно да се осъществи;
– нищо не правим, което не означава, че се примиряваме със статуквото – просто продължаваме да поддържаме презумпцията, че грешките ε са нормално разпределени в съвкупността. И понеже знаем, че не можем да го установим с достатъчна сигурност поради малкия обем на извадката, имаме едно наум към част от резултатите! Този вариант на действие предполага все пак, че целите на изследването са изпълнени в някаква задоволителна степен, което от своя страна означава, че посоката в която вървим е правилната. При определени обстоятелства, това последното може да бъде достатъчно в даден момент.

Една част от тези подходи са компромисни, други са крайни. Принципно погледнато, не трябва да се отказваме лесно от даден модел, като му лепнем позорния етикет „НЕАДЕКВАТЕН”. Въпреки наличието на определени недостатъци, моделът може да притежава потенциал под формата на важни предимства, който да ни помогнат в решаването на задачата. Ако отклонението от нормално разпределение не е толкова съществено за крайния резултат, след провеждането на един внимателен анализ на ситуацията (в каква степен е възможно да се постигнат целите, какви са приемливите компромиси, евентуалните допълнителни разходи за ново изследване и т. нат.), можем да стигнем до извода, че кусурите всъщност не са чак толкова съществени и моделът може да ни служи достатъчно добре, разбира се с цената на една по-голяма неопределеност на резултатите и задължителната в подобен случай предпазливост от наша страна при тълкуването им.


Тъй като примерът и без това стана много дълъг и се притеснявам стигайки до финала да не се окаже, че сме забравили откъде сме тръгнали, мисля да се ориентирам към затваряне на настоящата точка от своето писание, но ще оставя вратата леко открехната за допълнителен импулс на любознателните.

Да резюмираме накратко какво направихме дотук.
Изпробвахме три регресионни модела за да изследваме формата на зависимостта между скоростта на вятъра и получената електрическа мощност на изхода на генератора на една вятърна турбина. Установихме че:
– модел номер 1 (линеен) беше напълно неподходящ, защото връзката се оказа нелинейна;
– модел номер 2 (параболичен) реши проблема с нелинейността, но открихме някои негови кусури, които при определено приложение (предвиждания за горния край на интервала на факторния признак и съставяне на прогнози извън този интервал), правеха модела неадекватен. Което не означава, че не е възможно едно ограничено приложение;
– модел номер 3 (хиперболичен) се оказа най-подходящ до момента, макар също да не е лишен от недостатък. Установеното отклонение от нормалното разпределение на остатъците може да даде негативно отражение върху значимостта на регресионните коефициенти и доверителните интервали. Тъй като не се забелязват някакви фрапиращи резултати в тази посока и понеже не разполагаме с подробна информация за целите на експеримента (например, каква точност на предвижданията би ни удовлетворила), ще приемем, че този модел е адекватен на действителността и описва изследваната зависимост със задоволителна точност.

Аз спирам дотук със статистиката и мисля да напусна временно бойното поле, докато все още съм в състояние да различа къде е фронтовата линия и къде тила в тази паяжина от проблясващи оръжия:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg43.jpg)

Уморих се и имам нужда от малко почивка…

На любознателните завещавам още едно оръжие от тайния си арсенал, с което да продължат битката с вятърното чудовище:

4) Нелинеен експоненциален модел от вида y = β0 + β1β2.x

……
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 30/01/2009, 17:06
Задачата е решена. А сега накъде?

Отново ще оставим статистиката настрана, за да надзърнем в конкретната област на приложение на този примерен регресионен анализ.
Вятърните турбини са машини, способни да „уловят” кинетичната енергия на движещите се въздушни маси (вятъра) и да я преобразуват в механична енергия на въртящ се ротор. Към този ротор обикновено е присъединен електрически генератор, който от своя страна преобразува механичната енергия в електрическа – тогава говорим за вятърен генератор. Съществуват различни конструкции вятърни генератори. Ето няколко:
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg44.jpg)

Във вятъра е скрита огромна мощ! И макар никой да не се съмнява в това, когато от време на време ставаме свидетели на последиците от опустошителните ураганни ветрове, нека все пак поставим нещата на научна основа със следната формула:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg45.gif)[1]
Pw – енергията, която бихме получили от вятъра за единица време или още мощност на вятъра, W
ρ – плътност на въздуха, kg/m3
A – напречната площ на въздушния поток, m2
V – скорост на вятъра, m/s

Виждаме, че енергията на вятъра зависи от плътността на въздуха, големината на площта, върху която натиска въздушния поток, но най-силно от скоростта на вятъра, защото тя участва във формулата с трета степен, т.е връзката е нелинейна. Някои може би ще потрият доволно ръце: Ами това е чудесно, колкото по-голяма е скоростта V, толкова по-добре – ще имаме V3 повече енергия! Например, двукратното увеличаване на скоростта води до осемкратно увеличаване на получената енергия.

За съжаление формула [1] важи в едни идеални условия. В реалността нещата не са толкова прости. Природата се съпротивлява яростно на всеки наш опит да я „опитомим” и ни налага следните ограничения:

– само 59.3% от енергията на вятъра може да бъде оползотворена от една вятърна турбина (на практика още по-малко). Това ограничение е известно като Закон на Бетц5). Коригираме формула [1] така:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg46.gif)[2]
Pm – механична мощност на турбината, W
Cp е коефициент въвеждащ ограничението на Бетц. Физическият му смисъл е на аеродинамичен КПД. Не е постоянна величина, а зависи от скоростта на вятъра и конструкцията на турбината. Макар теоретично Cp max = 0.593, на практика рядко надхвърля 0.4 и то само при определени условия.

– принудени сме да се откажем и от още една част от вятърната енергия, която се губи безвъзвратно в околното пространство под формата на топлина. Затова коригираме формула [2] и получаваме:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg47.gif)[3]
Pе – получената на изхода на генератора електрическа мощност, W
η – КПД отчитащи механичните и електрическите загуби

– за да получим значителни количества енергия е необходима и голяма площ, чрез която да „впрегнем” въздушния поток. От конструктивни, технологически и други съображения обаче, сме принудени да се ограничим в изработването на турбини до определен диаметър на перките. Независимо, че този показател с развитието на технологиите през последните 30 години се е увеличил повече от три пъти, той все пак не може да расте неограничено.

– още от древни времена въздухът се е смятал за една от четирите стихии6), на които е изграден светът. Днес, макар и освободен от философските категории на древните мислители, движещият се с висока скорост въздух си остава все пак… стихия. Неговата потенциално разрушителна мощ е четвъртата причина, поради която не винаги сме в състояние да се възползваме напълно от потенциала енергия, която ни предлага вятъра. Инженерите са принудени да вградят в конструкцията на турбината система за контрол на оборотите, която ще я изключи при ураганни ветрове (обикновено над 20-25 m/s), предпазвайки по този начин различни нейни елементи от повреди и разрушаване, но същевременно с това се спира и добива на енергия.

Следващата картинка чудесно онагледява казаното по-горе:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg48.jpg)

– крива номер 1 е получена по формула [1] и описва характеристиките на една ИДЕАЛНА турбина;
– крива номер 2 отразява ограничението от закона на Бетц във формула [2]. Вижда се как при една и съща скорост на вятъра, енергията спада с около 40% (Cp max = 0.593);
– крива номер 3 се нарича диаграма на мощността и важи за РЕАЛНИ турбини. За разлика от другите две е получена по експериментален път, чрез продължителни измервания с последваща статистическа обработка на данните. Показана е в два варианта (a и b), които леко се разминават, защото отчитат особеностите на системите за контрол на скоростта. Важи само за конкретен модел генератор!

Върху крива номер 3 различаваме три характерни стойности за зависимостта между мощността на турбината и скоростта на вятъра:
– начална стойност на производство на енергия (около 2-4 m/s);
– стойност, при която производството на енергия достига своя максимум (около 14-16 m/s);
– стойност, при която се прекратява производството на енергия (около 20-25 m/s, а за някои модели малки турбини и повече).
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 17/02/2009, 00:35
Проблемът при вятърните генератори се състои в невъзможността по теоретичен път да се предскаже с достатъчна за практиката точност, стойност за мощността при съответна скорост на вятъра. Освен това, продуктите на различните производители се различават в своята конструкция, вложени материали, технология на производство и др., което няма как да не се отрази на техните показатели за качеството, в това число и едни от най-важните – номинална мощност и ефикасност. Ето защо, Международната електротехническа комисия изисква чрез IEC 61400-12, мощностните характеристики за нови модели вятърни генератори да се потвърждават чрез изпитване, независимо от факта правени ли са или не теоретични изчисления. Съгласно изискванията, резултатите от изпитването трябва да бъдат предоставени на клиента в подходяща форма, например текстова (във вид на таблица) и/или графична (подобна на крива номер 3).

Това обаче не е всичко. Данните на производителя са получени при някакви конкретни условия – условията, при които е проведен експеримента. Всяка промяната в тези условия може да се отрази на измерената мощност, понякога съществено. Особено голямо влияние върху резултатите оказват:
– топографските особености в мястото на изпитването – релефът и ландшафтът променят динамиката на въздушните потоци;
– надморската височина – влияе чрез плътността на въздуха;
– точността и чувствителността на използваните средствата за измерване;
– положението на анемометъра (ветромера) спрямо турбината и т. нат.

Повече от ясно е, че турбината никога няма да работи в условията, при които е изпитана от производителя. Разбира се една от целите на стандарта IEC 61400-12 е чрез прецизиране и уеднаквяване на методиката за изпитване да сведе евентуалните несъответствия в характеристиките до минимум. Но все пак данните за мощността дадени от производителите си остават валидни само за едни специфични условия, защото разликите в релефа на мястото на изпитване и мястото на експлоатация обективно съществуват. Тези разлики могат да бъдат сериозна пречка за точността на дългосрочното планиране на произведената от генератора енергия. Прецизното планиране на добиваната енергия е от особена важност, когато става въпрос за значителни инвестиции в т.нар вятърни паркове, които работят в паралел с националните електропреносни мрежи.
Ето един такъв в близост до гр. Палм Спрингс в щата Калифорния (САЩ) и наброяващ по сведения на Американската асоциация за вятърна енергия (AWEA) около 3000 броя машини с обща инсталирана мощност около 600MW!

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg49.jpg)

Ето защо, освен предварителните метеорологични наблюдения и измервания на ветровите характеристики в мястото на инсталация, понякога се правят и допълнителни изследвания с цел проверка на мощностните характеристики на вятърния генератор при едно конкретно приложение. Интервалният метод за обработка на данните посочен в IEC 61400-12 изисква значителни времеви ресурси, с каквито не винаги се разполага. Вместо него, данните от работещия на място генератор, могат да бъдат обработени и анализирани чрез регресионен анализ, който притежава следните две предимства:
– може да се осъществи с по-малък обем на извадката;
– при валидиран модел, дава възможност за обосновано прогнозиране на стойности за мощността при липсващи стойности за скоростта на вятъра. Последното е от особена важност за такъв капризен и непостоянен във времето енергиен ресурс, какъвто е вятъра.
Проведени изследвания (Llombart, Watson, …) показват, че двата подхода дават идентични резултати.

Резултатите от всички тези измервания и анализи служат за съставянето на т. нар. ветроенергийни одити на местата, където ще се изграждат вятърни паркове.

В представения примерен регресионен анализ не става въпрос за такива големи машини като тези от горната снимка, а за един малък генератор, предназначен предимно за домашна употреба. По моя преценка с мощност около 2.5-3kW и диаметър на перките не повече от 3-4m.
Може би подобен на този:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg50.jpg)

Ето и неговата диаграма на мощността, предоставена от производителя:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg51.jpg)

Трябва да се каже, че твърде често се спекулира с кубичния характер на зависимостта между скоростта на вятъра и мощността. При измервания в реални условия на различни конструкции вятърни турбини тази зависимост може да се моделира с различни форми като квадратична, кубична и т. нат., както и комбинации между тях. Ето още един резултат от изпитване на един 250 киловатов генератор, от който ясно се вижда, че при определени обстоятелства е възможно връзката да се прояви дори като линейна.

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg52.jpg)

Сега, след като понаучихме нещичко за вятърните генератори, можем да си позволим лукса да погледнем на нашите регресионни модели малко по-отвисоко или „от космоса”, както обичаше да казва една известна от близкото минало съфорумка…

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg53.jpg)

… и на базата на придобитите теоретични знания и практически опит да изберем най-подходящия от тях.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 17/02/2009, 00:44
Накрая ще се опитам да обобщя казаното дотук с помощта на онези две думички, с които започнах в самото начало.

Формула [1] представлява една дедуктивно изведена теоретична зависимост. В основата й е изразът за кинетичната енергия7), който е следствие от прилагането на Закона за запазване на енергията. Установихме, че ако се уповаваме единствено на тази теоретична зависимост, ще сгрешим и то значително, защото тази формула е валидна само в едни идеализирани условия. Ето защо я коригирахме на два пъти (формули [2] и [3]), с което се приближихме до истината, но… тя за малко пак ни се изплъзна. Тогава загърбихме (почти) теорията и се опряхме основно на експеримента, резултатът от който беше диаграмата на мощността. Оказа се, че валидността на получените от нея резултати при определени обстоятелства също може да бъде под въпрос, което налага те да бъдат повторно проверени експериментално. Един от възможните начини за такава проверка е индуктивно построен регресионен модел.

За съжаление дедуктивно изведените зависимости не винаги описват явленията около нас в тяхната същност и пълнота. Естествено ни най-малко имам за цел да омаловажавам изключителните постижения на учените-теоретици. Аз всъщност се прекланям пред логическата състоятелност и математическа изящност на изведените от тях по чисто дедуктивен път различни закономерности, които ни служат впоследствие и като модели за решаване на практически задачи, но… Това всъщност е едно голямо НО!
Когато тези модели се прилагат директно за изследване на корелационни по своята същност зависимости, напълно възможно е те да не се проявят в действителността така, както очакваме. Причината за това е, че всеки един теоретичен модел е в определена степен абстрактен, защото е изведен на основата на един фундаментален принцип – “при равни други условия”. Последното може да компрометира неговата валидност относно едно конкретно приложение, тъй като не винаги е възможно предварително да се гарантира, че тези “равни други условия” са изпълнени, а когато те в някаква степен са и идеализирани – направо си е невъзможно.

В реалните условия съществуват и фактори (закономерни и случайни), които няма как да бъдат предвидени от теоретичния модел. Понякога ние нищо не знаем за тях, друг път на базата на някаква оскъдна информация само подозираме за тяхното съществуване. Възможно е и да знаем точно кои са те, но да не разполагаме с достатъчно лесен и евтин начин да ги измерим и контролираме. А те все пак оказват влияние върху поведението на изследваните променливи и понякога в своето съвкупно въздействие могат да изкривят съществено характера на връзката предсказан от теоретичния модел. Това налага дедуктивните модели да бъдат проверявани в практиката с помощта на индуктивни модели.


И така – дедукция или индукция?
А защо „или”?
Послушайте вятъра и отговора чуйте.



…………………………………………
Колко пъти трябва поглед да вдигнеш,
за да видиш небето?
Колко уши трябва да имаш,
за да чуеш как хората плачат?
Колко пъти смъртта трябва да срещнеш,
за да разбереш, че твърде много хора умират?
Отговорът, приятелю, с вятъра се носи,
Отговорът с вятъра се носи
…………………………………………

/Боб Дилън/
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 17/02/2009, 00:47
Бележки към първи пример

1) виж темата Дедукция срещу индукция (http://q-systems.uni.cc/index.php?topic=466.0)

2) Blowin' In The Wind (http://dox.bg/files/dw?a=69acb441ae), в превод "Отговорът с вятъра се носи", e заглавието на популярна песен на Боб Дилън от 60-те години на миналия век. През 2008 година Робърт Алън Цимерман (Bob Dylan) бе отличен с наградата „Пулицър” за "огромното си влияние в поп музиката и американската култура, белязано от лирични композиции с изключителна поетична мощ".

3) по Montgomery & Runger
Тези данни вероятно са част от планиран експеримент, за който авторите за съжаление не дават никаква допълнителна информация. Изваждането на регресионния анализ от контекста на експеримента вероятно е имало за цел да спести обем, като се акцентира само върху същността на регресията. В духа на примера от Част I, сметнах за необходимо да добавя допълнителна информация от областта на приложение на анализа, включително под формата на собствени разсъждения. Този подход има безспорни предимства за разбирането и усвояването на един статистически метод, но съществува и известен риск от допускане на грешки, тъй като нямам практически опит в областта на вятърните генератори. Разбира се положих известни усилия да прецизирам нещата в рамките на дефицита от време, с което разполагам. Надявам се, ако бъдат забелязани грешки или неточности, да ги отстраним с общи усилия.

4) от англ. robust – здрав, силен. Терминът е чуждица и се е наложил в руската и българска специализирана статистическа литература. В случая според мен би трябвало да се преведе като устойчив.

5) доказан през 1916 от немския физик Алберт Бетц (Albert Betz, 1885-1968)

6) според древногръцкия философ Емпедокъл (ΕΜΡΕΔΟΛΗΣ, 490-430 пр. н.е.)

7) Ek=m.V2/2, изведен през 1829 година от френския учен Гюстав Кориолис (Gustave Coriolis, 1792-1843) в неговия труд Du Calcul De I’Effet des Machines
Титла: Re: Практическо приложение на стастически методи
Публикувано от: velbon в 17/02/2009, 07:50
 :-X
Впечатляващо.

Още днес ще препратя към форума любознателни клиенти, които искат да копаят в тая нива.
ОТК, какво да правим с авторските права?
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 17/02/2009, 15:00
Цитат на: velbon
ОТК, какво да правим с авторските права?
http://q-systems.uni.cc/index.php?topic=468.0 (http://q-systems.uni.cc/index.php?topic=468.0)
В интерес на истината, ако си педант на тема авторски права, може би трябва да се обърнеш и към авторите и/или издателствата на източниците, които съм използвал.
Аз не съм го правил. ;)
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 17/08/2009, 15:27
Тези дни ми се очертава да имам повече свободно време, затова ще се опитам да довърша това, което съм започнал относно регресионния анализ.
Вторият пример е малко по-сложен и съответно по-дълъг, но усилието си струва, защото както ще видим, е много повече от суха статистика. Затова ще го тикаме полекичка, на части. ;)
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 17/08/2009, 15:33
Втори пример



За да бъде успешна една технология е необходимо реализмът да доминира над PR-a,
защото Природата не може да бъде заблудена.


Ричард Файнмън



………
T+1:10 – Roger, go at throttle up
На седемдесетата секунди от старта записващото устройство на борда е регистрирало може би последните думи на командир Франсис Скоуби за превключване към пълно натоварване.

T+1:13 – Uh-oh…
Три секунди по-късно се чува и краткото възклицание на пилот Майкъл Смит. Следва тишина… Връзката е прекъснала.

В този момент говорителят на полета в Контролния център е вперил поглед в листа пред себе си и без да поглежда какво показват мониторите продължава да чете разписаните в програмата на полета последователност от събития, които трябва да се случат. Но мониторите показват нещо друго – една ужасяваща картина:
  
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg54.gif)

След девет успешни полета, на 28 януари 1986 по време на своя десети полет под номер 51-L, на 73-та секунда от старта, совалката Challenger, най-сигурният според NASA космически кораб за многократно използване се взривява0) на височина приблизително 14 km над земната повърхност.

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg54_1.jpg)

Всичките седем члена на екипажа загиват.
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg55.jpg)

От ляво на дясно: Ellison Shoji Onizuka, Michael John Smith, Sharon Christa McAuliffe, Francis Richard "Dick" Scobee, Gregory Bruce Jarvis, Ronald Ervin McNair, and Judith Arlene Resnik

Стотици хора на трибуната за наблюдение около полигона за изстрелване и незнайно колко още зрители пред телевизионните екрани (CNN предава на живо) стават свидетели на катастрофата в реално време. Полетът е бил широко рекламиран заради проекта „Учител в космоса”, в резултат на който сред екипажа има и един непрофесионален астронавт с нетипична мисия на борда – 38-годишната учителка Криста Маколиф ще преподава на своите ученици уроци в условията на безтегловност.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 17/08/2009, 19:27
Назначената от Рейгън непосредствено след трагедията комисия провежда разследване и излиза с доклад относно причините за катастрофата, които най-общо могат да се обобщят така:

1) недостатъци в процедурите за оценка на риска и вземане на решения – отговорните за старта на совалката мениджъри не оценяват адекватно нивото на риск и не се съобразяват с препоръките на инженерите за отлагане на старта докато околната температура се повиши до стойности, при които са излитали совалките. В деня на старта, времето е било необичайно студено за Флорида, с температура 31°F (~ -0.6°C), а всички 23 полета досега са провеждани при значително по-високи температури – над 53°F (~11.6°C);

2) грешки в дизайна на твърдогоривните ракетни ускорители – лоша конструкция на свръзките между последните две секции на ускорителя, която предполага загуба на уплътнителната способност вследствие на кумулативното въздействие на няколко фактора като относително движение на отделните елементи един спрямо друг при натоварване и загуба на еластичност на материала използван за направа на уплътнителите в условията на ниски температури и последващо ерозивно въздействие на горещите горивни газове. Вследствие на нарушената херметичност, в мястото на съединяване се изпускат горещи горивни газове, които нагряват конструкцията недопустимо, тя не издържа на комбинацията от високо аеродинамично и термично натоварване и се разрушава – първо се откъсва от своите захвати десният ракетен ускорител, удря се във външния горивен резервоар и го поврежда. От тук до пълното разрушаване на совалката ни делят част от секундата.

Надявам се долната картинка да внесе малко повече яснота в използваната терминология:

 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg55_1.jpg)

Неофициално се говори и за политико-икономически натиск върху NASA. Заложените първоначално големи надежди към космическите совалки, като един сравнително евтин начин за рутинен пилотиран транспорт на хора и товари (първоначално с военни цели) до околоземна орбита и обратно не се оправдават. Непрекъснато нарастващите и станали вече огромни разходи предопределят започналия процес на постепенно орязване на бюджета1). Обстоятелствата налагат да се правят икономии и разписанията на полетите стават все по-трудноизпълними. Всяко отлагане на вече планиран полет е свързано със значителни загуби на средства, а този полет на Чалънджър вече е отлаган няколкократно. Липсата на достатъчно средства застрашава и реализацията на проекта „Учител в космоса”, който все пак е лична инициатива не на кой да е, а на Президента Рейгън (мнозина експерти оспорват образователните ползи на този проект, смятайки го за откровен политически PR). Това са част от причините, поради които NASA, имаща в ранните си годинни репутация на консервативна и стриктно спазваща собствените си процедури организация, започва да прави все повече и все по-големи компромиси със сигурността на полетите.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 17/08/2009, 19:32
Това въведение беше необходимо, защото както ще видим и по-нататък, настоящият пример не е само суха статистика, а много повече. Но нека на този етап спрем дотук с обстоятелствата около причините за катастрофата и съсредоточим нашето внимание само върху статистиката, като потърсим отговор на следните два въпроса:

Съществувала ли е статистически значима корелационна връзка между околната температура2) и повредите в уплътнителните О-пръстени?

и

Дали е било възможно резултатите от провеждането на един сериозен статистически анализ на данните от минали полети на совалки, да наклонят везните в полза на решението стартът да бъде отложен за един по-късен момент с благоприятна метеорологична обстановка?



Според някои учени отговорът и на двата въпроса е положителен.

През 1989 г. Dalal, Fowlkes и Hoadley публикуват3) в официалното издание на Американската Статистическа Асоциация (ASA) статията Risk Analysis of the Space Shuttle: Pre-Challenger Prediction of Failure, в която застъпват тезата, че използването на подходящи статистически методи може значително да подпомогне процеса на взимане на решения. Те демонстрират как чрез един особен вид регресионен анализ, така наречената логистична регресия е възможно да се установи наличието на корелационна връзка между вероятността за повреда в уплътнителните пръстени на совалката и околната температура (в частност, температурата на уплътняваното съединение).

Аз не съм чел тази статия и затова по откъслечна информация от различни източници, ще се опитам да сглобя едно опростено, но все пак представително изложение.

В доклада от разследването на комисията може да бъде намерена следната диаграма4):

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg56.jpg)

Тя прилича на нашата добра стара позната диаграма на разсейване – по абсцисата са нанесени температурите, при които са излитали совалките в периода 1981-1985 г., а по ординатата – броят на повредените уплътнителни пръстени5).

Ето как ще изглеждат нещата, когато ги прехвърлим в софтуера за обработка, но вместо броя повреди от диаграмата запишем само наличие (Y) или отсъствие (N) на повреда:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg56_1.jpg)
* липсват данни за този полет, защото ракетните ускорители не са намерени (вж. бележка 5)
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg57.jpg)

Като основа за математическо моделиране на формата на зависимостта ще използваме логистичен регресионен модел, който има следния вид:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg58.gif),
където:
y e зависимата променлива;
x е независимата променлива;
e е основата на натуралния логаритъм;
β са регресионните коефициени.

За изчисленията може да се използва:
– джобен калкулатор – мъка-а-а!;
– online калкулатор – например http://statpages.org/logistic.html или http://www.stattucino.com/empty.html (за втория трябва да имате инсталиран Java Plugin за браузъра);
– електронна таблица – макар MS Excel 2003 да не притежава стандартна функционалност за анализ чрез логистична регресия, задачата все пак може да се реши с малко повече творчество. За улеснение може да се използва вградения модул за итерационни изчисления – т. нар. Solver (възможно е да не е инсталиран!). А за онези, които предпочитат да управляват нещата „по-отблизо” е на разположение и VBA.

Преди да продължим нататък обаче, е необходимо да направим едно ВАЖНО уточнение. Специфичното в тази задача е, че данните за зависимата променлива са дискретни от типа ДА/НЕ (двоични), които са представители на слабите скали. Припомнете си от Част I, че този факт противоречи на първото изискване за приложение на МНМК – данните да бъдат непрекъснати случайни величини, представители на силните скали. Двоичният характер на данните създава след себе си редица проблеми – може да се докаже математически, че няма да бъдат спазени нито изискването за нормално разпределението на грешките, нито изискването за постоянство на техните дисперсии. За щастие, нашият избраник логистичния модел, няма да бъде чувствителен към тези проблеми, ако подходим по правилния начин.

Ще предприемем следните две стъпки:
1. Ще трансформираме модела по подходящ начин и
2. За оценка на регресионните коефициенти вместо МНМК, ще приложим ММП.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 20/08/2009, 23:36
В първата стъпка, с трансформирането на модела ще имаме за цел да превърнем дискретната зависима променлива y в непрекъсната, като я обвържем с определена вероятност да приема стойностите 0 или 1. Нека:
с p означим вероятността y=1 (YES),
а с 1-p вероятността y=0 (NO)

С помощта на някои математически преобразувания записваме логистичния модел така:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg59.gif)
Лявата част на модела се нарича шанс (odds) и представлява отношението на благоприятните случаи за възникване на едно събитие към неблагоприятните такива.

Правим познатата ни от теоретичната част логаритмична трансформация и получаваме:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg60.gif)
Лявата част е логаритъмът от шанса и се нарича още logit-функция, а дясната част, като че ли е… нещо познато. Да, нелинейният логистичен модел също притежава в себе си скрита линейност, която след няколко математически трика "излезе" наяве. Целият процес на преобразуване на модела (някои операции бяха спестени на читателите) е известен като logit-трансформация.

Коефициентите β0 и β1 в горното уравнение имат аналогична интерпретация, както при линейната регресия, с една важна подробност – отнасят за логаритъма от шанса, а не за независимата променлива y. Например, коефициентът β1 показва с колко ще се измени логаритъмът от шанса при единица изменение на х. Можем да запишем това така:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg61.gif),
където OR се нарича отношение на шанса (odds ratio).

Във втората стъпка ще имаме за цел да намерим оценките на регресионните коефициенти. Тук обаче ни чака още една трудност, която трябва да преодолеем.
За съжаление, установената по-рано „скрита” линейност в модела не е достатъчна предпоставка да използваме нашия фаворит МНМК по начина, по който го правихме досега, защото както вече споменахме не са изпълнени изискванията за неговото приложение. Затова ще прибегнем до използването на един друг математически метод – методът на максималното правдоподобие (ММП), с помощта на който в комбинация със специални итерационни процедури ще изчислим оценките на коефициентите, за които т. нар. функция на правдоподобието (L) има максимум:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg62.gif)

Функцията на правдоподобието има следния вид:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg62_1.gif)
„П”-то отпред е въведено за по-кратко изписване на формулата и трябва да се тълкува като произведение.

Следват редица математически операции, при които функцията се логаритмува и диференцира спрямо коефициентите, получените изрази се приравняват на нула за да се намери максимума и подобно на линейната регресия се получава система уравнения, за чието решение обаче се прибягва до използването на числени методи. Ще прескочим всичко това, защото излиза извън скромните цели на настоящото писание. Но ако загърбим математиката и го кажем с думи прости, принципът на максималното правдоподобие отразява рационалното допускане, че в природата се реализират събитията, които са най-вероятни. Повече информация за метода любознателните могат да намерят в специализираната литература, а ние ще се доверим изцяло на софтуера при решаването на нашата задача.

След прилагането на итерационна процедура по quasi-Newton алгоритъм, софтуерът изплю следните стойности за регресионните коефициенти:
β0 = 15.0430
β1 = –0.2322.

Връщаме се назад в направените преобразувания и получаваме:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg63.gif),
където
p (с колибка) е оценената вероятност зависимата променлива да приеме стойност 1, т.е. да имаме повреден уплътнител. Тази вероятност вече се изразява с непрекъсната величина и може да приема всякакви стойности в интервала между 0 и 1.

Заместваме в горната формула изчислените стойности за оценките на коефициентите и получаваме окончателния аналитичен израз на нашия логистичен регресионен модел:
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg64.gif)

Графически моделът представлява една S-образна крива, асимптотично клоняща в двата си края към стойностите 0 и 1. Забележете, че знакът „минус” пред β1 обръща S-а, което трябва да ни покаже, че търсената от нас връзка между температурата и вероятността за повреда би била обратна: с намаляване на температурата, вероятността за повреда ще се увеличава.

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg65.jpg)

Но понеже сме прилежни изследователи, няма да спрем до тук, а ще направим някои проверки на нашия модел...

...ще направим, ама следващия път.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 20/08/2009, 23:37
а) проверка на значимостта на регресионния коефициент β1.

За целта издигаме познатите ни хипотези:
H0: β1 = 0
H1: β1 ≠ 0

Wald-тест (Abracham Wald, 1902-1950)
Статистиката
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg66.gif)
при голям брой наблюдения следва нормалното разпределение

Ако |W| ≥ z[1-α/2], отхвърляме нулевата хипотеза в полза на алтернативната.

Забележка: В някои софтуерни пакети, за целите на този тест се използва W2-статистиката, която следва χ2-разпределението (чете се „хи-квадрат”) с k=m-1 степени на свобода, където m е броят на параметрите (коефициентите) на модела.

Ще пропуснем как се изчислява асимптотичната стандартна грешка на оценката SEβ1, защото се използват техники от матричното смятане и ще вземем стойността наготово от софтуера (0.1082). Получаваме:

W = |–0.2322/0.1082| = 2.15 > 1.96[1-0.05/2]

Ако вземем предвид горната забележка и използваме W2-статистиката, получаваме:

W2 = (–0.2322/0.1082)2 = 4.61 > 3.84[0.05; 1]


Според някои статистици (Hauck, Donner, Agresti и др.), този тест не е достатъчно надежден при малък обем данни (ние имаме само 23 случая) и за предпочитане е вместо него да се използва

LR-тест (от Likelihood Ratio)
Статистиката
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg67.gif)
следва χ2-разпределението с k=m-1 степени на свобода.

L0 и L1 са максималните стойности на функцията на правдоподобието, изчислени съответно за модел съдържащ само коефициента β0 (нулев модел) и за модел съдържащ и двата регресионни коефициента (пълен модел), т.е. прави се един вид проверка дали изпускането на β1, води до някакво значимо различие в стойността на тази функция. Колкото по-значим е тествания коефициент, толкова по-голяма би трябвало да бъде тази разлика.

Ако LR ≥ χ2[α, k], отхвърляме нулевата хипотеза в полза на алтернативната

Софтуерът изплю следните стойности за логаритмите на L0 и L1:
ln(L0) = –14.1335
ln(L1) = –10.1576.

Заместваме във формулата и получаваме:
LR = –2(–14.1335 – (–10.1576)) = 7.952

LR = 7.952 > 3.84[0.05, 1]

Резултатите и от двата теста показаха, че нямаме основание да приемем нулевата хипотеза за вярна и за това я отхвърляме в полза на алтернативната: коефициентът β1 е различен от нула. Съответният 95% доверителен интервал е (-0.4443 … -0.0201) и не включва 0!

Следователно, можем да направим извода, че съществува статистически значима връзка между температурата и вероятността за повреда.


b) проверка за адекватност чрез тест на Hosmer-Lemeshow – на любознателните оставям сами да разучат този тест, който също може да помогне да се установи доколко един логистичен регресионен модел описва добре изследваната зависимост. Най-общо казано, данните се преобразуват, като се групират в u = 6…10 интервала с подобни като стойност оценени по модела вероятности (p) и приблизително еднакъв брой случаи във всеки интервал. Съответните хипотези са:

H0: моделът е адекватен, т.е. описва добре изследваната зависимост;
H1: моделът не е адекватен

Статистиката, резултат от този тест следва χ2-разпределението с k=u-p степени на свобода.
Ако HL ≤ χ2[α, k], приемаме нулевата хипотеза.

Тестът не е подходящ при малък обеми данни, което в нашия случай намалява доверието към резултата, но... какво да се прави, данните в анализа са като парите в живота – никога не стигат. Повечето пакети за статистическа обработка притежават функционалност за този тест, затова ще се възползваме наготово от възможностите на софтуера, който при зададени 6 групиращи интервала изчисли:
HL = 5.30 < 9.49[0.05, 4]

Следователно, въз основа на наличните данни можем да направим извода, че моделът е адекватен.


c) проверка на предсказващата способност на модела:

- чрез т.нар. класификационна таблица – какво представлява тя, ще видим малко по-надолу;
- с помощта на т.нар. ROC-криви (Receiver Operating characteristic) - за тях - в специализираната литература.


d) графичен анализ на остатъците – за съжаление, познатият ни инструмент за бърза оценка на адекватността на регресионния модел чрез анализ на диаграмите на остатъците, няма да ни е от голяма полза при логистичната регресия с двоични нерепликирани данни, какъвто е нашият случай. Поради факта, че независимата променлива y приема само две стойности (0 и 1), остатъците щe проявявят тенденция да се подредят около две успоредни линиии, което прави диаграмите им не толкова информативни.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 14/09/2009, 17:03
И така, след като доказахме наличието на статистически значима връзка между температурата и вероятността за повреда, време е най-после да пуснем в употреба нашия регресионен модел. Нека в аналитичния израз на модела заместим x с три различни стойности от температурния интервал, при които са осъществявани полетите на совалките. Получаваме следните резултати:

при x=81 –> p=0.0226
при x=65 –> p=0.4876
при x=53 –> p=0.9392

Умножавайки резултатите х100 (за да получим проценти), виждаме как вероятността за повреда от около 2% при горната граница на интервала (81°F), нараства на около 50% в средата (65°F) и достига почти 94% за долната граница на интервала (53°F).

Стряскащи стойности, нали?!

Ето и всички резултати така, както софтуера автоматично изчисли:
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg69.jpg)

Можем да съставим една класификационна таблица, за която стана дума по-нагоре. Тя представлява таблица с два реда и две колони, в които са нанесени съответно наблюдаваните стойности (y) и оценените по модела стойности (p) на независимата променлива. Чрез сравнение на наблюдавани и предсказани стойности, лесно можем да установим доколко добре се е справил нашия логистичен регресионен модел с „познаването”. Тъй като, както вече споменахме y е дискретна величина приемаща само две стойности 0 и 1, а p е непрекъсната величина, приемаща всякакви стойности в интервала между 0 и 1, видно е, че за пряко сравнение между двете и дума не може да става. Затова при съставянето на таблицата софтуерът използва следния трик:
- ако изчисленото по модела p≤0.5 –> приема, че е равно на 0;
- ако изчисленото по модела p>0.5 –> приема, че е равно на 1.

Ето и самата табличка:
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg68.jpg)

Вижда се, че моделът е предсказал на 100% всичките 16 полета без повреда и малко над 57%, т.е. 4 от 7-те полета с повреда. На тези две стойности може да се гледа като на вероятности за коректно предсказване на позитивно (0) и негативно (1) събитие. Общият процент на коректно предсказаните стойности е почти 87% ((16+4)/23).

Забележка: Класификационните таблици са интуитивни и лесни за построяване, но резултатите трябва да се тълкуват внимателно, защото силно зависят от разпределението на стойностите 0 и 1 вътре в таблицата. Средната стойност 0.5, използвана като критерий за класификация не във всички случаи е подходяща. Подходът не е универсален и не дава задоволителни резултати, когато съществува значителна разлика между загубите от некоректно предсказване на позитивното и негативното събития. Този дисбаланс може до известна степен да бъде „регулиран”, като за критерий се приеме по-малка или съответно по-голяма стойност от 0.5.



Нека сега продължим нататък, като се опитаме да направим една прогноза. Поставяйки се на мястото на мениджър, който трябва да вземе решение за излитане на совалката, интерес за нас представлява каква вероятност за повреда ще даде логистичния модел за онази мразовита утрин на 28.01.1986. Метеоролозите на NASA са очаквали температурата да спадне до стойности около 28-30°F, но тъй като ние се движим след събитията, можем да си позволим лукса да заместим в нашия регресионен модел точната стойност на температурата, регистрирана в момента на старта на совалката:

при x=31 –> p=0.9996

99.96% – това практически е 100%-ов риск за повреда!

Забележка: Тук е мястото да уточним, че тези стойности показват само и единствено вероятността за повреда на поне един от наблюдаваните уплътнителни пръстени на двата твърдогоривни ускорителя, а не изобщо вероятността за катастрофа на совалката! Последното е предмет на допълнителен анализ.

Съществува обаче един проблем с някои от тези резултати. Например, предвижданията за температури от 53°F до около 65°F са свързани със значителна неопределеност. На следващата картинка с две пунктирани линии е показан 90% доверителен интервал за модела.
 
(http://img.photobucket.com/albums/v231/stil/qm/regr/reg70.jpg)

Виждаме колко широк е този интервал, особено за малките стойности на x. Това се дължи на малкия брой наблюдения – 23 случая, от които само в 7 са установени повреди. 4 от тези 7 повреди се намират между 53 и 65°F и са единствените данни за този интервал. Всички останали данни са за температури над 65°F и както се вижда от диаграмата, след тази стойност доверителният интервал се стеснява значително.

Например, изчислената при температура 53°F вероятност от 94% е всъщност само една оценка, едно приближение към истинската стойност, която вероятно се намира някъде в интервала 48…99.6%. От гледна точка на анализ на риска, интерес представлява долната граница на доверителния интервал, която е почти два пъти по-малка от оценената вероятност. Тогава можем да формулираме този резултат така: при температура 53°F, можем да очакваме риск за повреда не по-малък от 48%.

По-подобен начин стоят нещата и с изчислената при температура 31°F прогнозна вероятност от 99.96%. Може би си спомняте, че няколко пъти обръщах внимание на големия риск, с който често са свързани екстраполациите на регресионните модели, особено ако се търсят прогнози за стойности на независимата променлива далеч извън интервала на известните ни стойности от експеримента. Тук имаме точно един такъв типичен случай – прогнозната стойност е за температура 31°F, а най-близката такава, при която е излитала совалка е 53°F. Дистанцията е значителна и съразмерна с целия интервал на известните ни стойности за х. 90%-ия прогнозен интервал също е широк и е оценяван различно, в зависимост от прилагания подход: 50…100% при използване на bootstrap изчислителни процедури (Dalal и др.) и дори 33…100%, при Bayesian Model Averaging подход (Draper).



Можем да направим и някои допълнителни пресмятания, като използваме формулите за изчисление на шанса. Замествайки стойността на коефициента β1, установяваме, че всяко увеличение на температурата с 1°, намалява шанса за възникване на повреда с фактора е-0.2322 = 0.7928 (95%CI = 0.6413 … 0.9801). С други думи, само един градус топлина в повече и шансът за възникване на повреда намалява с почти 21%! Може да се каже и обратното – един градус студ в повече, увеличава шанса за възникване на повреда с 1/е-0.2322 = 1.2614.
Ако при 81°F шансът е приблизително 1:43 в полза на благоприятното събитие, т.е. 43 пъти по-правдоподобно е да се реализира полет без нито една повреда в уплътнителните пръстени, то при 65°F е около 1:1, а при 53°F се обръща драматично на около 15:1 в поза на неблагоприятното събитие, т.е. 15 пъти по-правдоподобно е да се реализира полет, по време на който поне един от наблюдаваните уплътнителни пръстени ще бъде повреден от изтичащите покрай него горещи газове.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 15/09/2009, 21:10
Задачата е решена. А сега накъде?

И така, с помощта на логистичния регресионен модел установихме статистически значима обратна корелационна връзка между температурата и вероятността за повреда – с намаляване на температурата, вероятността се увеличава. При температура около 65°F, вероятността да се повреди поне един от наблюдаваните уплътнителни пръстени на совалката прехвърля 0.5 („фифти-фифти”) и достига почти 1 в прогнозата за 31°F. Стигнахме и до заключението, че въз основа на наличните данни е невъзможно предварително да узнаем с достатъчна прецизност каква би била истинската стойност на вероятността за повреда при тези 31°F. Изчислените по модела вероятности в обхвата на ниските температури (които всъщност представляват най-голям интерес за нас), са свързани със значителна неопределеност, правеща ги на пръв поглед безполезни от практическа гледна точка.

А дали е така наистина?

Всъщност, защо се интересуваме толкова от тези 99.96% при 31°F, когато дори и за граничната стойност от 53°F, която е изпълнявала ролята на нещо като неофициален стандарт в NASA за минимално допустима температура на изстрелване на совалките, имаме оценена вероятност от 94%?
А ако сме оптимисти и вместо оценената вероятност, вземем предвид оценената неопределеност, т.е. долната граница на доверителния и-л, съгласно която при 53°F можем да очакваме риск за повреда не по-малък от 48%?
Много или малко са тези 99%, 94%, 48% или дори 10% вероятност за повреда, когато става въпрос за човешки животи?
Някак си логично след тези въпроси се промъква и съмнението дали всичките тези проценти, които изчислихме с помощта на логистичния модел не са съдържали в себе си един неприемливо висок риск при тогавашните обстоятелства?

За съжаление статистиката не е в състояние да даде отговор на подобни въпроси. Не й е и това работата – тя изигра своята основна роля при разкриването на връзката между температура и вероятност за повреда. Доказването на статистическата значимост на връзката е онази мигаща червена лампичка, която предупреждава: “Внимание! Температурата е значим фактор за качественото уплътняване между секциите на ракетния ускорител!
От друга страна, опитът ни да се доберем до по-прецизни вероятностни оценки за някои температури, включително и чрез екстраполиране на модела не даде убедителен резултат поради значителната неопределеност на резултатите. Тази неопределеност обаче е още една мигаща червена лампичка, която предупреждава: “Внимание! Качеството на процеса на уплътняване е силно непредсказуемо при ниски температури!”

От тук нататък решението е на хората. Какво е то – на всички ни е известно.

Очертава се тезата, че решението за старт на совалката при тогавашните обстоятелства, всъщност е било едно решение „на тъмно”, свързано с неприемливо високо ниво на риск. Защото ако едно високо-рисково решение евентуално може да бъде оправдано в условията на някакви непредвидими форсмажорни обстоятелства, същото не може да се твърди, когато става въпрос за предварително планирани дейности, не малка част от които могат да се квалифицират дори като рутинни – към онзи момент, програмата „Космическа совалка” е имала вече 5-годишна история с 24 осъществени полета, без да се броят тестовите такива.

Повредата на въпросните уплътнителни „О”-пръстени е само един от факторите влияещи върху риска от катастрофа на совалката, която би довела до загуба на човешки живот, но както видяхме – твърде важен фактор. За съжаление, дълго време пренебрегван неоснователно.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 15/09/2009, 21:20
Позволих си да отделя повече време за този пример, защото съдържа в себе си много повече от суха и скучна статистика. Случаят със совалката „Чаланджър” се изучава в редица университети и колежи по света. Поуките, които могат да се извлекат от него са приложими в различни области на познанието. Поради тези причини присъства в учебните планове на такива дисциплини като: приложна статистика; управление и оценка на риска; инженерни изследвания; инженерна и бизнес етика; управление на качеството; организационна култура и поведение; организационен мениджмънт и др. И тъй като всяка от тях акцентира върху различни аспекти, в заключение отново ще се върнем към причините за катастрофата, пречупени през призмата на няколко гледни точки.

Позицията на мениджърите е, че инженерите не са им били достатъчно полезни при вземането на решението, защото не са предоставили убедителни данни4) в полза на препоръката за отлагане на старта на совалката.

Диаметрална е позицията на инженерите. Според тях, мениджърите са действали твърде самоуверено6), като са взели решение без да имат нужната компетентност. Пренебрегвайки препоръките на инженерния екип са поели излишно висок риск и освен това са се поддали на външен натиск7). Каквото е зависело от инженерите, те са го направили8) в рамките на своите правомощия – установили са и своевременно са докладвали за наличието на критичен за сигурността дефект в конструкцията на совалката.

Статистиците никога не пропускат възможността да размахат поучително някоя от показаните в примера диаграми и смело да обобщят: „Погледнете тази диаграма – тя можеше да спаси седем човешки живота!” За статистиците рискът за тази катастрофа би бил значимо по-малък, ако и инженери и мениджъри са били обучавани по-добре в прилагането на статистическите методи.

Социолозите притежават способността да надзъртат отвъд черупката на индивида, поставяйки го в пределите на някаква общностна формация. Затова, разбираемо представят една по-широка гледна точка върху този проблем. За социолозите, техническите неудачи са само върхът на айсберга, а истинските причини за катастрофата се коренят дълбоко в историята и организационната култура на NASA. Ето някои от тях:
– допускане на сериозни компромиси със сигурността, за да се спечели одобрението и финансирането на програмата „Космическа совалка”;
– липса на интегриран подход в управлението на различните етапи и елементи на програмата;
– често сменящи се приоритети при осъществяването на политиката на организацията;
– разчитане повече на минали успехи (програмата „Аполо”), вместо прилагане на принципите за добра инженерна практика;
– организационни бариери, възпрепятстващи ефективната комуникация вътре в организацията;
– силно влияние на неформалните връзки в процеса на вземане на решения и др.

Всички тези процеси, не само вътре в организацията, но и в нейното взаимодействие с околната среда, създават едно измамно и опасно устойчиво във времето усещане за сигурност, което 17 години след катастрофата с „Чаланджър”, в доклада разследващ една друга катастрофа, тази на совалката „Колумбия”, ще бъде наречено „разбита култура за сигурност”9).




Но... стига толкова скучна статистика, трагични катастрофи и тежки етични дилеми – стана късно и е време за сън. Аз отивам да спя, но преди това ще успокоя изтощената си от писане душа с малко “космическа” музика – “Срещи”-те 10) на Жан-Мишел.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 15/09/2009, 21:24
Бележки към втори пример

0) Всъщност, специалистите говорят за disintegration (разпадане) на совалката. Взрив, в класическото разбиране на термина не е имало, защото не е регистрирана детонация.

1) От над 4% в средата на миналия век, бюджетът на NASA непрекъснато се орязва и в началото на този век е спаднал под 1%. Плановете са до края на 2010 година, за когато са планирани последните мисии на совалки, програмата Space Shuttle да бъде прекратена, а в бъдеще да се разчита на считаните за относително по-евтини и по-надеждни космически кораби със спускаем апарат (капсула) – технология позната още от програмата Apollo, но подлежаща на усъвършенстване. По мнения на експерти обаче, реализацията на този проект е в твърде ранен етап и вероятно няма да бъде готова преди 2015 г.
Последният за сега полет на совалка беше осъществен съвсем скоро – на 31.07.2009 г. „Индевър” се приземи успешно на космическия център „Кенеди” във Флорида, след 15-дневна мисия по изпълнението на договори за доставка на оборудване на Международната космическа станция. Стартът на совалката беше отлаган пет пъти поради течове на гориво и лоши метеорологични условия.
Междувременно, докато завършвах писанието си, още една совалка приключи успешно своята мисия. На 11.09.2009 г., на полигона в Калифорния успешно се приземи "Дискавари" - третата (и най-стара след катастрофиралите "Чаланджър " и "Колумбия") совалка от флота на NASA.

2) Всъщност, вероятно става въпрос за температурата на самото съединение, а не околната, но за целите на настоящия анализ, това не е от голямо значение.

3) По-късно се появяват и други публикации по случая Чаланджър (Lavine, Lighthall, Draper и др.), някои от които предлагат и алтернативни статистически решения.

4) Данните са били в един твърде суров вид (предимно под формата на таблици, скици и снимки на повредени уплътнителни пръстени) и въпреки че са събирани в продължение на години, никога не са били подлагани на сериозен научнообоснован анализ. Статистическата им обработка се е изчерпвала с построяването на въпросната диаграма на разсейване.

5) След като ракетните ускорители си свършат работата, т.е. помогнат на совалката да преодолее част от земното притегляне, те се откачат от нея контролирано и биват приводявани (http://vbox7.com/play:cac2c744) с парашути на безопасно място в океана. Следва изтегляне на сушата, разглобяване, проверка и анализ на състоянието, ремонт, сглобяване и пускане отново в употреба. Именно по време на тези проверки са установени въпросните повреди по уплътнителите.

6) Големият учен на XX в. и Нобелов лауреат за физика Ричард Файнмън (Richard Feynman, 1918-1988) играе ключова роля в последвалото разследване на инцидента като член на комисията. В своята книга “Какво те е грижа какво мислят другите” (1988) той пише, че е бил шокиран, когато някои отговорни мениджъри на NASA твърдели съвсем на сериозно, че рискът да се случи катастрофа, която да причини загубата на совалката заедно с екипаж и товар се оценява на фантастичните… 1 на 100 000 случая!!!
Подобни твърдения наистина звучат стряскащо, особено когато идват от устата на мениджъри управляващи проекти, в които за заложени човешки животи и милиарди долари. Простите сметки показват, че ако това е вярно и приемем, че всеки ден се изстрелва в орбита по една совалка, то такъв инцидент би се случвал приблизително веднъж на цели 274 години! В действителност, според независими експерти, рискът е някъде в границите 1-2 на… 100! Натрупаните засега данни не противоречат на тази оценка – към момента са осъществени 128 полета, от които 2 с фатален край.
Критичното си отношение към мениджмънта на NASA, Файнмън показва в приложение F към доклада от разследването, което завършва с думите: “За да бъде успешна една технология е необходимо реализмът да доминира над PR-a, защото Природата не може да бъде заблудена”.
Според някои източници, висши мениджъри от ръководството на NASA се опитват да отстранят Файнмън от комисията, използвайки своите връзки с високопоставени политици и атакувайки здравословното му състояние. Той е бил ексцентричен човек, който не робува на авторитети и като един истински учен е знаел каква е цената на истината. Усещайки, че назначеният за председател на комисията бивш дъравен секретар Уйлям Роджърс се опитва да насочва разследването в посока на замъгляване на истинските причини за катастрофата, Файнмън полага големи усилия за да не се компрометира работата на комисията. Въпреки че е болен от рядка форма на рак в напреднала фаза, той присъства на всички заседания на комисията и пътува много за лични срещи с учени и експерти, за да чуе техните мнения по различни специфични проблеми засегнати в разследването.

7) Когато става ясно, че метеорологичната прогноза е неблагоприятна, в нощта преди старта се провежда тежка няколкочасова телеконференция между мениджърите на NASA и доставчика на ракетните ускорители Morton Thiokol. Първоначално от Morton Thiokol дават на NASA препоръка базираща се на становище на инженерния екип, стартът да бъде отложен до повишаване на температурата над 53°F, като в своя подкрепа предоставят всички данни, с които се е разполагало до момента. Притиснати от изоставащия график на полета, мениджърите от NASA нарушават собствените си процедури за вземане на решение, обявяват инженерните данни за неубедителни и настояват с ултимативен тон пред своя партньор да преразгледа становището си за отлагане на старта.
Изправен може би пред риска да загуби жизненоважен клиент в лицето на NASA, главният мениджър на Morton Thiokol има нещо предвид. Той моли за временно прекъсване на конференцията и прави закрито заседание със своите подчинени. Какво точно се е случило на това заседание едвали ще стане някога известно, защото не е документирано. Но е известен резултатът – становището на инженерите за отлагане на старта е игнорирано. При изслушванията на свидетелските показания по време на разследването, достояние в пубичното пространство става една реплика, изпусната вероятно в разгара на разгорещена дискусия. Тя е на главния мениджър на Morton Thiokol към един от своите инженери: „Боб, ние трябва да вземем мениджърско решение, затова си свали инженерната шапка и наложи мениджърската”.
Минути по-късно, от Morton Thiokol отново се включват в телеконференцията и уведомяват NASA че са преразгледали своето първоначално решение, като дават съгласието си за провеждане на старта планиран за сутринта на 28.01.1986 г. От NASA се съгласяват незабавно.

8) Проблемите с въпросните О-пръстени са били известни още от първите полети на совалките в началото на 80-те, което е установено и с намерените по време на разследването доклади с резултати от след-летателния контрол и препоръки за промени в конструкцията. Анализът на тези документи показва едно сериозно подценяване на проблема и евентуалните последствия от него. Вероятно поради тези причини, някои от мениджърите се опитват да попречат на разследващите, излизайки с позицията, че не са знаели за съществуването на подобен проблем. Неофициално се твърди, че е имало опити дори за прикриване и манипулиране на данните, но тъй като да се докаже умисъл в действията при подобна ситуация е трудно, в доклада от разследването официално се говори за... грешки в анализа.
Роджър Бойсжоли, един от инженерите на Morton Thiokol, който нееднократно е предупреждавал за потенциално опасните последствия от този проблем, решава да сътрудничи на разследването и разобличава мениджмънта. „Резултатът…[от загубата на херметичност, бел. otk] …би могъл да бъде катастрофа със загуба на човешки живот”, пише Бойсжоли в заключението на своя последен доклад до вицепрезидента на Morton Thiokol още през юли 1985 г.
След края на разследването Бойсжоли се чувства пренебрегван и изолиран в работата си в Morton Thiokol и скоро напуска компанията, сякаш да потвърди известната максима, че никой не е пророк в собствената си страна. Според него, случаят Чаланджър отдавна е напуснал пределите на науката и се е превърнал в етичен проблем.

9) “Broken safety culture” – вж. доклада Columbia Accident Investigation Board, vol. 1, p. 184-189

10) Албумът Rendez-vous (http://www.jeanmicheljarre.com/discography/studio/rendez-vous-1986) (Срещи) на Jean Michel Jarre излиза през 1986 г. В последната композиция озаглавена Last Rendez-vous (Последна среща) (http://dox.bg/files/dw?a=3c32b0e65f) наред с модерното електронно звучене е вплетен и натуралния звук на един саксофон. Любопитна подробност е, че тази мелодия е трябвало да бъде изсвирена и записана в открита орбита около Земята на борда на совалката Чаланджър от астронавта Роналд Макнеър (който освен учен-физик е бил и талантлив музикант-саксофонист), а по-късно да бъде миксирана в студиото и добавена в албума. Имало е планове дори изпълнението на Макнеър да бъде пуснато на огромна видеостена по време на вече планирания по случай 25-та годишнина на NASA концерт в Хюстън, щата Тексас. Случилата се само два месеца по-рано трагедия осуетява първоначалния замисъл и в последната от срещите в албума тъжно импровизира саксофонистът Pierre Gossez, а самата композиция е преименувана на Ron’s Piece (Парчето на Рон).
На косъм да бъде отложен, грандиозният концерт в Хюстън все пак се състоява и влиза в книгата на Гинес с рекордните тогава 1.5 милиона зрители. А на сцената, в “Парчето на Рон” свири американският джаз-саксофонист Kirk Whalum.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 16/09/2009, 00:50
Допълнителна литература за любознателни

Rawlings., Pantula., Dickey – Applied Regression Analysis: A Research Tool
Schroeder, Sjoquist, Stephan – Understanding Regression Analysis: A Introductory Guide
Seber, Wild – Nonlinear Regression
Bates, Watts – Nonlinear Regression Analysis and Its Applications
Draper, Smith – Applied Regression Analysis
Ryan – Modern Engineering Statistics
Powers, Xie – Statistical Methods for Categorical Data Analysis
Hosmer, Lemeshow – Applied Logistic Regression
Montgomery, Runger – Applied Statistics and Probability for Engineers
Förster, Rönz – Methoden der Korrelations- und Regressionsanalyse
Съйкова, Тодорова – Статистическото изследване

Mathew – Wind Energy; Fundamentals, Resource Analysis and Economics
Manwel, McGowan, Rogers – Wind Energy Explained: Theory, Design And Application
Llombart, Watson, Fandos – Power Curve Characterization, Part I & II

Vaughan – The Challenger Launch Decision: Risky Technology, Culture, and Deviance at NASA
Holden – The Tragedy of the Space Shuttle Challenger
Feynman – What Do You Care What Other People Think
Dalal, Fowlkes, Hoadley – Risk Analysis of the Space Shuttle: Pre-Challenger Prediction of Failure, Journal of the American Statistical Association, Vol. 84, No. 408 (Dec., 1989)
Boisjoly, Curtis, Mellican – Roger Boisjoly and the Challenger Disaster: The ethical dimensions, Journal of Business Ethics, vol. 8, 1989
NASA – Report of the Presidential Commission on the Space Shuttle Challenger Accident, 1986
NASA – Columbia Accident Investigation Board, 2003
www.nasa.gov
www.onlineethics.org



OTK



08/19.09.2009 - няко несъществени корекции и допълнения
07/16.09.2009 - добавен пример 2
06/17.02.2009 - довършен пример 1
05/30.01.2009 - довършена теорет. част и добавен пример 1
04/23.12.2008 - започната Част 2
03/11.04.2008 - коригиран статистически извод в т.2 б), вследствие на смесени числа от доверителния и-л на beta1 и стойността на t
02/11.04.2008 - коригирани разменени термини в т.1.5 - значимост на коефициентите на модела
 
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 20/09/2009, 12:15
И накрая, след толкова писане за анализ на връзки и зависимости, някои може би „изтърваха края” и си задават съществения въпрос: Абе каква всъщност връзка има регресионния анализ с „ИСО-то”?

Сигурен съм, че за онези от вас, които са на „ти” със стандарта, съмнения относно съществуването на подобна връзка няма. Те са убедени в това! Дори в „ИСО-то” никъде да не се споменава терминът „регресия.
Естествено е да има и хора, които се затрудняват да направят подобна връзка. За Katya (http://q-systems.uni.cc/index.php?action=profile;u=49) например, моите писания в тази тема са прекалено научни, теоретични и на всичко отгоре, не на правилното място:
Цитат на: Katya
ОТК -много добър теоретик си [...] но публикувай научните си търсения в раздел, подходящ за това

Няма ли някой услужлив колега, но за по-голяма тежест от нейната гилдия на консултантите, който да обясни (напълно безвъзмездно) на Katya (и други с подобни затруднения), каква/къде е връзката „регресионен анализ–ISO9001” и защо otk е публикувал това си писание точно тук: форум q-systems.uni.cc –> раздел „Системи за управление” –> подраздел "Управление на качеството" –> тема „Практическо приложение на статистическите методи”?

Велбоне, що си траеш? Сигурен съм, че нямаш нужда от жокер.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: Anonimen1 в 21/09/2009, 13:06
Че има връзка между ISO-то и Регресионния анализ има - връзка има и не само с него, ами и с анализа на риска (FMEA), и с Парето анализ и с още много други методи за анализ на данни (няма да казвам коя е клаузата от ISO 9001   - тъй като velbon беше призован да го стори ;D).
Въпроса според мен тук е "Къде се къса връзката?" - и ето какво си мисля:
OTK - явно човек на науката, който добре познава теоретичните основи и методики за приложение в изследване на корелационните връзки между явленията, положи доста труд да изложи един пример за практическо приложение на регресионния анализ с примера със совалката. Много подробно и с картинки - Браво! ... Само че... какво от това ?!

Колко от т.н. "гилдия" на Katya си дадоха труд да го прочетат? а колко от тях го прочетоха 2 пъти за да се опитат и да го разберат? и накрая колко от тях им проработи въображението за да успеят да видят възможност да използват метода в консултантската си или управленска практика ? (това се отнася и за гилдията на УПР-тата също ;) )

Според OTK разгледания пример е от ясен по-ясен - всичко е изяснено в подробности с причините с данните и графиките и т.н. и е свързан с качеството - Да! - безспорно е важно за качеството на совалката. Каква обаче е реалноста: Останалите четат и се чудят: какви совалки ?! какви пет лева!? - никой клиент не произвежда и не изстрелва совалки ?! - за какво ни е това!?

Затова аз предлагам когато се разглеждат примерни приложения, те да са с насоченост към реалните проблеми изискващи анализ на данни, които се срещат по родните фирми - колкото и тривиални от научна гледна точка да са те.

Затова, който има такъв проблем или казус - нека да го споделя тук, а ОТК да предлага метод за решаването му или решение (разбира се ако иска да се занимава с това).

Незнам дали стана ясно какво исках да предложа  - но ще го резюмирам така: Нека едното познание ( теориите и методите на ОТК) да се обедини с другото познание (проблемите в гилдията на Katya и още който го интересуват тези неща) - за да се решават конкретни казуси от сферата на качеството. По този начин ще има много по-силен интерес към статистическите методи, отколкото ако се разглеждат примери със совалки.

Това е моето мнение :).
Титла: Re: Практическо приложение на стастически методи
Публикувано от: velbon в 21/09/2009, 22:20
otk рекъл:

Цитат
Велбоне, що си траеш? Сигурен съм, че нямаш нужда от жокер.
[/size]

Не можа ли по-ситно да го напишеш?!

Материалите на отк-то за стат-методите си ги свалям методично, правя си ги в уърд файлчета, да са винаги на разположение и като си ги чета се кефя.
По повод на стат-а редовно пращам във форума клиенти, студенти, курсисти.
Щото това дето се труди да направи отк, има забележителна методическа и практическа стойност!

Според мен, проблемът за страха от Стат-а има три причини:
1. Мързел, страх от формулите, съчетан със занижени изисквания на мениджъри и сертификатори. Нали не ни го искат одиторите ...
2. Относително ниското образователно ниво на т.нар. консултантска гилдия, особено в академичен, теоритичен и методически аспект.
3. Третото е най-простичко - НЕПОЗНАВАНЕ на стандартите. Четем отгоре-отгоре 9001, щото по него ще ни изпитват и това е! А честичко не четем даже и 9001, ами само пищовите, които сме докопали от някъде. А има едни "консултанти", които не четат и пищовите. Тях ги чете компютърът, а те предимно риплейсват имена на фирми ...

Братя консултанти (сестри консултантки), зарежете го т`ва 9001.
Ключът от бараката е в 9000, а кучето е заровено в 9004.
И в стария и в новия 9000 стат-а е силно препоръчан като основен инструмент (т.2.10). А в 9004 анонси към всички подходящи стат-методи има и в 7.1, 7.3.1, 8.2.1, 8.5.3 и където още щете ...

А в любимия ви 9001:2008, в т.0.3 пише "ISO 9004 разглежда управлението на качеството по-всеобхватно в сравнение с ISO 9001".
Ама кой да чете точка 0.3, по нея не изпитват ...
Титла: Re: Практическо приложение на стастически методи
Публикувано от: Anonimen1 в 24/09/2009, 20:09
....
А в любимия ви 9001:2008, в т.0.3 пише "ISO 9004 разглежда управлението на качеството по-всеобхватно в сравнение с ISO 9001".
Ама кой да чете точка 0.3, по нея не изпитват ...

А освен ISO 9004, Managing for the sustained success of an organization — A quality management approach, за тези:

ISO 10001:2007, Quality management — Customer satisfaction — Guidelines for codes of conduct for organizations;
 ISO 10002:2004, Quality management — Customer satisfaction — Guidelines for complaints handling in
organizations;
 ISO 10003:2007, Quality management — Customer satisfaction — Guidelines for dispute resolution external to organizations;
 ISO 10005:2005, Quality management systems — Guidelines for quality plans;
 ISO 10006:2003, Quality management systems — Guidelines for quality management in projects;
 ISO 10007:2003, Quality management systems — Guidelines for configuration management;
 ISO 10012:2003, Measurement management systems — Requirements for measurement processes and measuring equipment;
 ISO/TR 10013:2001, Guidelines for quality management system documentation;
 ISO 10014:2006, Quality management — Guidelines for realizing financial and economic benefits;
 ISO 10015:1999, Quality management — Guidelines for training;
  ISO/TR 10017:2003, Guidance on statistical techniques for ISO 9001:2000;
  ISO 10019:2005, Guidelines for the selection of quality management system consultants and use of
their services;
  ISO 19011:2002, Guidelines for quality and/or environmental management systems auditing;
  IEC 60300-1:2003, Dependability management — Part 1: Dependability management systems;
  IEC 61160:2006, Design review;
  ISO/IEC 90003:2004, Software engineering — Guidelines for the application of ISO 9001:2000 to
computer software;
  Quality management principles 2), ISO, 2001;
 ISO 9000 — Selection and use 2), ISO, 2008;
 ISO 9001 for Small Businesses — What to do; Advice from ISO/TC 176 3), ISO, 2002 [22] ISO
Management Systems 4).


какво да кажем?!? колцина са ги виждали или чували?! колко от тях се вземат под внимание когато се проектират и внедряват системи за управление на качеството?!

Титла: Re: Практическо приложение на стастически методи
Публикувано от: Marcii в 25/09/2009, 15:42
Преди известно време четох една статия в издание на свищовската стопанска академия. Ставаше дума за изследване за използването на статистическите методи за контрол на качеството в българската индустрия. Там доколкото си спомням имаше разни смешни изводи, като  например, че висшия държавен ешалон трябвало да наблегне на внедряването на статистическите методи в контрола на качеството. Имаше и констатации: поне 40 процента от фирмите в машиностроителния бранш прилагат статистически методи в контрола на качеството и технологичните процеси. На мен тази цифра 40 ми се видя мнооого раздута, но такова беше изследването...

Доколко обаче консултантите са длъжни да разработват документация с прилагане на статистически методи - при условие, че няма такова желание от самия клиент? Колко от фирмите наемат  консултант да ги консултира за  добри практики и колко са наети за получаване на така необходимия сертификат? Колко одитора при одит са поставили въпрос за използване на статистически методи и са написали несъответствие - velbon казва че защото са "занижени изисквания на сертификаторите", но не казва защо...
 
Правих опит в една фирма, която имаше внедрена  ERP система да им докажа, че ако приложат методи на статистиката при разглеждане на натрупаните  рекламации от предходната година, ще открият редица закономерности, които могат да иползват... Накрая сама им направих няколко диаграми на Парето за да онагледя смисъла от цялата работа. Но уфи, не се впечатлиха. "Излишно било, пък и нямало кой да се занимава с това."

Всичко ще си дойде с времето и с мисленето - обсъждахме го веднъж със Сан Антонио и стигнахме до извод:  кога ще се случи - след 80 до 100 години.

А дотогава такива като otk  ще работят или в -, или за -  разни други  държави, където тези неща не се считат за излишни.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 08/10/2009, 22:18
Така, нека си припомним и едновременно с това обобщим как беше демонстрирано практическото приложение на регресионния анализ в настоящата тема:
– в примера за чистотата на произвеждания кислород – като инструмент за анализ и оптимизация на процеса на контрол на продукта;
– в примера за вятърните генератори – като инструмент в процеса на потвърждаване (валидиране) на продукта при функционирането му в едно конкретно местоположение;
– в примера за совалката – като инструмент за оценка на риска и подпомагане процеса на вземане на решение.

Доколкото успях да разбера от оскъдните отзиви, относно първите два примера няма проблем с разбирането, но примерът за логистичната регресия вероятно е „приседнал” на някои, въпреки усилията ми да опростя максимално изложението и да сведа теорията и математическия апарат до ниво около екзестенциалния минимум. Наистина този пример е по-труден за разбиране поради ред причини: използва относително по-сложен математически апарат; логистичните регресионни модели не са толкова интуитивни; засягат се многообразие от проблеми, с които може да се сблъска една организация и в крайна сметка, като че ли задава повече въпроси, отколкото да дава готови отговори. Но... точно в това е неговата сила.

ПРАВИЛНОТО РАЗБИРАНЕ на случая „Чалънджър” изисква сериозен подход. Не само от математическа гледна точка. Затова изрично предупредих, че примерът не е само статистика и не случайно написах цяла страница поясняващи бележки. Затова завърших изложението с няколко твърде различни гледни точки относно причините за катастрофата, а накрая дадох и списък с източници и допълнителна литература.

Този пример НЯМА КАК ДА БЪДЕ РАЗБРАН в неговата цялост, ако:
1) дефицитът на познания в определена област се оправдава с прекалена „теоретичност”, „научност” и липса на, цитирам – „насоченост към реалните проблеми изискващи анализ на данни, които се срещат по родните фирми”.
2) се изхожда единствено от тясното разбиране на термина качество, като качество на продукта, цитирам – „...безспорно е важно за качеството на совалката”, или „... никой клиент не произвежда и не изстрелва совалки”.

В този пример не става дума само за качеството на продукта, а за много повече – за качеството на организацията като цяло: качество на връзките и взаимоотношенията (вътре и навън); качество на информацията и комуникациите; качество на процедури и дисциплина за тяхното спазване (например за оценка на риска, подизпълнители, управление на измененията, вземане на решение, обучение); качество на поставените цели и съвсем не на последно място – качество на човешкия ресурс (включително и в етично измерение).

Не ми е известно случаят с „Чаланджър” да се изучава в някой български университет (което ако е вярно, лично за мен е сериозен пропуск), но е сигурно, че в този си вид за пръв път се появява в българското интернет пространство. Точно неговата образователна стойност натежа в решението ми да бъде включен в тази тема, като една блестяща илюстрация за ползите и проблемите при прилагането на статистическите методи. Да-да, правилно прочетохте! И за проблеми става въпрос в този пример! Надявам се, някои от вас да са усетили това. Защото както обикновено, медалът има и обратна страна – макар ефективността на статистическите методи да е известна и доказана, те все пак не са панацея.

Едно предупреждение!
Не приемайте писанията на ОТК в тази тема за научен труд, защото не отговарят на критериите за това. Авторът не е учен, а обикновен инженер. Възможно е в изложението да съм допуснал и грешки, макар да се старая. Но нали си нямам редактор...
В този аспект, не обременявайте писаното от ОТК и с прекалено големи очаквания. То няма за цел придобиване на задълбочени познания в статистическите методи, още по-малко за разрешаване на, цитирам – „проблемите в гилдията на Katya”. Целта е значително по-скромна: да провокира интерес за по-задълбочено изучаване същността на статистическите методи и да подскаже някои ползи и проблеми при практическото им прилагане в сферата на управление на качеството.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 08/10/2009, 22:42
За тези от вас, на които терминът „совалка” звучи сложно и прекалено „космически”, нека вместо за този летателен апарат, си мислят за какъвто и да е друг продукт (например домашен миксер) или процес. Това няма да промени кой знае колко нещата, защото МЕТОДЪТ остава същия. Ако ненавиждате совалки, ракети, самолети, вертолети, дирижабли, хвърчила и каквито и да било други летящи творения плод на човешкия ум, или просто се страхувате да летите, ще дам още два „по-земни” казуса за практическо приложение на логистичната регресия. Но... само условията разбира се. Решенията ще си намерите сами. ;)

Трети пример
Софтуерна компания с персонал предимно от програмисти. Спечелени са нови проекти, които тепърва предстои да бъдат обезпечени с необходимия човешки ресурс. В условията на жестока конкуренция, маржовете на печалба са сведени до нива близки до границата на здравословния минимум. Затова мениджър търси възможности за намаляване на разходите в организацията. Предвид естеството на работа, едно от перата в челната редица е ФРЗ. Директното намаляване на заплатите обаче е една твърде непопулярна мярка, която може да доведе до неконтролируемо текучество и съответно да компрометира вече започнатите проекти.

Мениджърът вижда възможности в промяна на политиката по наемане на човешки ресурс, съгласно която важен критерий при привличането на програмисти досега е било наличието на голям професионален опит. Но резултатите от друго изследване показват, че в общия случай това струва повече, и то доста повече.

Съществува ли връзка между продължителността на професионалния опит на служителя и неговата способност за програмиране на определен вид софтуер?
Дали хора с по-малък опит не биха се справили със същия успех при изпълнението на задачите и съответно да струват по-малко на компанията?
Мениджърът смята, че критерият „професионален опит” не може да бъде изключен при подбора на кадри, защото ще се появи необходимост от допълнителен ресурс за обучение, което компанията не може да си позволи на този етап. Но вероятно този критерий може да бъде занижен. С колко би могло да се намали изискването за опит, така че рискът от несправяне със задачите да остане в приемливи граници?

На тези и други въпроси трябва да отговори следният експеримент: на група от 25 програмисти с различен професионален опит (в месеци) е поставена задача с типична за фирмата трудност, която трябва да бъде решена за определен период от време.

Резултатите са дадени в долната таблица:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg71.jpg)


Четвърти пример
Маркетингово проучване. Една от целите е да се установи съществува ли връзка между предпочитанието към определен продукт и възрастта на потребителите. Моля, не си мислете за совалки, а например за... вафли!

Могат да се поставят следните въпроси:
Каква е вероятността, продуктът да се харесва съответно от 15, 30 и 50-годишните потребители?
При каква възраст на потребителите вероятността е 50%? А 80%?
Какъв е шансът продуктът да се харесва повече от 15-годишните, спрямо потребителите на 50? Или за този продукт е валидна ситуацията от познатата ни реклама, където възрастовите разлики не са значим фактор за вкусовите предпочитания?

Цитат на: Реклама
– Прощавайте, едни вафли да сте виждали тука? – плахо пита тинейджър за забравеното си в автобуса сладко изкушение.
– Не се вкарвай в нек’ви филми братле... – засегнат отвръща дядо, като дискретно изтупва остатъците трохи от скута си.
– Объркàл си рейса пич! – усмихнато отговаря баба, едва успявайки да смачка в дланта си издайническата опаковка.

Резултатите от анкетата, отнасящи се до възрастта  са дадени в следващата таблица:

(http://img.photobucket.com/albums/v231/stil/qm/regr/reg72.jpg)

С последните два примера разширихме полето на приложение на регресионния анализ, в частност на логистичната регресия с още две области – управление на човешките ресурси и маркетинг.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 08/10/2009, 23:14
Относно връзката с „ИСО-то”, радвам се, че все пак беше споменат доклада на Международната организация по стандартизация ISO/TR 10017 “Указания за статистически техники за ISO 9001”. В него освен кратко описание на някои приложими статистически методи (недостатъчно за тяхното усвояване), е поместена и една табличка, която идентифицира потребностите от прилагане на определен(и) метод(и) във всяка една точка от ISO 9001. Там може да се види, че регресионният анализ би могъл да намери приложение в 7.3.3, 7.3.5, 7.3.6, 7.3.7, 7.4.1, 7.5.1, 7.5.2, 7.5.5, 7.6, 8.2.4, 8.4, 8.5.1, 8.5.2, 8.5.3. Всъщност, точките могат да бъдат и повече, но както отбелязват авторите на ISO/TR 10017, този технически доклад няма претенциите за изчерпателност.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: otk в 12/10/2009, 14:48
Цитат на: Marcii
Имаше и констатации: поне 40 процента от фирмите в машиностроителния бранш прилагат статистически методи в контрола на качеството и технологичните процеси. На мен тази цифра 40 ми се видя мнооого раздута, но такова беше изследването...

Спомням си един случай отпреди няколко години, когато един консултант, управител на една известна с многото си клиенти и трибуквена абревиатура в името консултантска организация, „консултираше” свой клиент, че видите ли, обикновеното броене също е... статистика – сумираме някакви показатели, отделяме резултатите, превръщаме в проценти, онагледяваме с няколко диаграмки, правим съответните изводи и... воала! На ти Марко статистика!
Но по-важното е, продължаваше консултанта, че одиторите признават всякакви подобни сметки, пардон, еквилибристики. Е, за по-голяма тежест можем да спретнем и някоя диаграмка на Парето (щото за повече не ни достигат силите).

Всъщност, в интерес на истината понятието статистика е доста разтегливо и може да се тълкува по различни начини, включително и по начина разказан в горната случка. Но дали точно това тълкование са имали предвид създателите на стандарта? Тогава си помислих, ако някои от носителите на идеите за използване на статистически методи залегнали в „ИСО-то”, които не са вече между живите можеше да чуе това, сигурно би се обърнал в гроба.


Та така Марчи, ако една голяма част от фирмите попаднали във въпросното „изследване”, са били „консултирани” по подобен начин, тези 40% намират своето ЕДИНСТВЕНО логично обяснение.
Титла: Re: Практическо приложение на стастически методи
Публикувано от: Anonimen1 в 12/10/2009, 17:21
....
Та така Марчи, ако една голяма част от фирмите попаднали във въпросното „изследване”, са били „консултирани” по подобен начин, тези 40% намират своето ЕДИНСТВЕНО логично обяснение.

          Проблема не идва само от консултантите-статистици от трибуквени фирми. Той се намира на друго място - а именно в плановете и програмите за обучение на инженери, икономисти и др. такива специалисти - още на студентската банка. Където тези методи, и най вече практическото им приложение не се преподават на необходимото ниво. В матанализа се говори за теория на вероятностите, после в специалните дисциплини се споменава нещо мимолетно за този и онзи метод за статистическа обработка на данни, но се използва строго в контекста на съответната дисциплина. Студентите - бъдещи мениджъри, икономисти, инженери и консултанти (а някои и поети.... -> "Течее всичко тече - времето няма бряг и ни влече - няма как...") не могат да направят връзката и да усетят възможностите на тези методи. Това което виждат и си спомнят отпосле са едни "космати" формули и таблици, които "не са за нас" и как да не са петимни на такива лесно-достъпни "статистики", които любезно им се предоставят от любези консултанти и се приемат от дваж по-любезните одитори.
        Като прибавим към горното и нежеланието да се четат книжки в свободното време (кой иначе ше следи "Биг Брадър", "Тенцинг старс", "Гюмюш", "Гюнер" и/или "Сакъз" ?!?) за да попълним изпуснатите знания и като липсва в повечето случаи разбиране и подкрепа (да не говорим за насърчаване или стимулиране) от страна на мениджмънта на фирмата - резултата е този. ;).
Титла: Re:Практическо приложение на статистически методи
Публикувано от: bivsh в 22/03/2015, 21:32
Обяснете ми какво е това "5 защо". Моля за конкретен пример от машиностроенето.
Титла: Re:Практическо приложение на статистически методи
Публикувано от: Anonimen1 в 25/03/2015, 10:47
Обяснете ми какво е това "5 защо". Моля за конкретен пример от машиностроенето.

Цитат
Методът на “5-те защо?”

Можете да прилагате този метод при разрешаването на всякакви проблеми, независимо от тяхната сфера и мащаб. Първо формулирайте проблема, а след това си задайте последователно 5 пъти въпроса “защо”, като всяко следващо “защо”, трябва да е свързано с отговора на предишното. Отговорът на петото “защо” може за съдържа в себе си корена на вашия проблем. И именно него вие ще трябва да премахнете. Когато разберете в какво се състои проблемът, той ще се реши много по-лесно.

Пример:
Проблем: В механичния цех до Машина XYZ откривате едно "красиво" и голямо мазно петно...т.е. от машината е произтекъл теч. Това е проблем в няколко аспекта: ОС, ЗБУТ, К (тъй де това масло да не е без пари ;) )

Търсите причината (истинската) за този проблем:

Защо? 1: Защо има теч до машина XYZ?
Отговор 1: Ами защото уплътнението на хидрваличния шланг е "изтървало" от налягането!
Защо? 2: Защо уплътнението на хидрваличния шланг е "изтървало" от налягането?
Отговор 2: Ами защото уплътнението на хидрваличния шланг не е оригиналното !
Защо? 3: Защо уплътнението на хидрваличния шланг не е оригиналното?
Отговор 3: Ами защото от отдела по снабдяване са преценили че така ще спестят средства на организацията - като купят по-евтин заместител на оригиналното уплътнение!
Защо? 4: Защо отдела по снабдяване ще решат самоволно да доставят по евтин заместител?
Отговор 4: Зами защото шефът на отдела им е разпоредил да икономисват от всичко което могат!
Защо? 5: Защо шефът на отдела по снабдяване е разпоредил това?
Отговор 5: Ами защото е отскоро шеф по снабдяването при нас и не е наясно че с качеството на някои неща, компромиси не бива.

Следователно:  като КПД по отношение на възникналия проблем можете да предприемете стъпки да се срещнете със съответния шеф на отдела по снабдяване и да дискутирате проблема и защо мениджърските му разпореждания всъщност вместо да спестят разходи, може да доведат до още по-големи разходи за организацията.
В противен случай, ако само смените уплътнението с ново (от евтините) скоро ще се "радвате" на нов подобен теч ;).

//За Всеки конкретен отговор ти трябват доказателства че той е верния от всички възможни. Разбира се примера е съвсем хипотетичен и в зависимост от обективните отговори на всеки от въпросите - следващите въпроси могат да отидат в съвсем друга посока:

Например:
Защо? 1: Защо има теч до машина XYZ?
Отговор 1: Ами защото Работника XYZ не спазва инструкцията за правилно боравене с машината XYZ!
Защо? 2: Защо работника XYZ не спазва инструкцията за правилно боравене с машината XYZ?
... и  т.н.




Титла: Re:Практическо приложение на статистически методи
Публикувано от: iva в 25/03/2015, 16:36
Чудесен пример, върнах се в студентските си години, на лекции по "Управление на качеството"  :)
Титла: Re:Практическо приложение на статистически методи
Публикувано от: gabidim95 в 26/05/2015, 19:09
Здравейте! Много ще съм ви благодарна,ако някой добър човек реши да ми помогне относно една задача,защото вече съвсем се побърках.  Ядосан Ядосан Прикачения файл съдържа цялата ми задача.Въпроса ми е след като намерих 2-те уравнения на регресията,и след като намерих и на двете 13-те коефициента,как да разбера кой от тях не е важен коефициент,за да получа така наречения " минимален брой регресори". Благодаря предварително!
Титла: Re:Практическо приложение на статистически методи
Публикувано от: Gink в 10/12/2016, 16:41
И аз имам нужда от помощ. Нужен ми е доверителен интервал на линейна регресионна зависимост. Ще правя есктраполация и в тази връзка ми е нужно да изчисля доверителния интервал на функцията... На стойност мога да го направя, но на фукнция и идея си нямам как става.
Титла: Re:Практическо приложение на статистически методи
Публикувано от: Anonimen1 в 19/12/2016, 12:25
Gink - виж тук (http://conf.uni-ruse.bg/bg/docs/cp09/6.1/6.1-11.pdf)