Автор Тема: Практическо приложение на статистически методи  (Прочетена 52150 пъти)

otk

  • Global Moderator
  • Sr. Member
  • *****
  • Публикации: 469
    • Профил
L,
– макросите в Excel са хубаво нещо, но и без тях могат да се направят доста от нещата, които се използват често в практиката. Въпрос на цели, време и естествено... парички.

– реално време може да означава само едно – сега, в момента. Не сутринта, не вчера, а за миналата седмица, която споменаваш да не говорим. И тук вида на производството (дискретносто или непрекъснато) няма (почти) нищо общо. Общо има УПРАВЛЕНИЕТО НА ПРОЦЕСА.

- лесните извадки са тясно свързани с реалното време ;). И с паричките разбира се.

– възможно е грешката да бъде бъде и в оператора, стига разбира се процесът да е „способен”. Ако пък причината за грешката е ниска квалификация, логично е като коригиращо действие, с което да се отстрани причината да се предпише обучение. Не виждам нищо странно в случая.
« Последна редакция: 27/02/2008, 17:27 от otk »

L

  • Newbie
  • *
  • Публикации: 21
    • Профил
 :)  Иначе казано, при EXEL времето и парите които ще се отделят не си заслужават  качеството което ще се постигне.

keres

  • Trusted Users
  • Full Member
  • ****
  • Публикации: 171
    • Профил
Разбира се, не твърдя че един показател за качество се влияе само от една единствена причина. Аз просто съм имал данни само за една.
За да внеса повече яснота в условието на задачата ще добавя, че интервютата са проведени в свободна форма, като операторите са отбелязвали уводлетвореността на клиентите в следните категории - доволен, доволен със забележка, недоволен и нежелае да посещава повече офиса. Извадката на всички офиси е около 60 %. Броя на служителите във всеки офис е горе долу правопропорционален на натовареността.
Иначе още преди да пусна примера проверих значимостта на коефициента на корелация с критерии на Стюдънт и се получи, че той е значим за Офиси 1, 5 и 8.
Колкото до мениджъра на офис 4... не го мисли otk, той си е все още там и не подозира дори, че е обект на раговора ни  ;)

L

  • Newbie
  • *
  • Публикации: 21
    • Профил
В такъв случай  както каза otk e добре да се провери компетентност на служителите и сложността на  сервизните услуги за различните офисис,
Възможно е също  ако е  имало голям оборот на хора в офис 1 , това  да е намалило  сумарната им компетентност.
Ако има как е хубаво да се натрупат още данни и да се копае.
Все пак за да се остановят причините и да се направи прчино-следствена връзка е задължително в анализа  да участват повече хора с различни нива на компетентност от  въпросната фирма.  :)  Работата  в екип е задължителна.


 

otk

  • Global Moderator
  • Sr. Member
  • *****
  • Публикации: 469
    • Профил
Цитат на: keres
Разбира се, не твърдя че един показател за качество се влияе само от една единствена причина. Аз просто съм имал данни само за една...

Керес, не си помислил достатъчно върху това, което бях написал преди. А ставаше въпрос за това, че прилагайки само и единствено корелационен анализ не можеш да правиш заключение за наличието на причинно-следствена връзка между факторен и резултативен признак. Подобно твърдение е твърде рисковано, още повече в условията на липса на данни за зависимости на други фактори. И по принцип причинността не се постулира директно от статистиката като наука - тя само помага.

Целта на задачата, да се установи дали натовареността на служителите влошава качеството на услугата в различните офиси на фирмата, изисква много повече. А и мисля, самото противоечие на резултатите го показва.
Това което трябва да направиш е да разшириш факторното пространство и да се потопиш по-дълбоко в мътните води на стратификацията и когато (дали? ;)) изплуваш на повърхността, ако все още дишаш е възможно картинката да започне да се очертава. Тогава зарежи статистиката и започни да мислиш логически. Построй някоя и друга диаграмка тип рибя-кост, Парето,... допитай се до някой "капацитети" и така плъзгайки се внимателно по твърде тънките понякога нишки на причинно-следствените връзки, ВЗЕМИ СВОЕТО ОКОНЧАТЕЛНО РЕШЕНИЕ.

Стига вече да не е твърде късно! ;D

keres

  • Trusted Users
  • Full Member
  • ****
  • Публикации: 171
    • Профил
тя само помага.
Ами това беше и целта ми!

Честно казано не ми се спори повече. Когато видя нещо твое като анализ тогава бихме могли да продължим темата.
Пък и се измести смисъла на поста. Никой не дава реални, конкретни и цифрови примери и предложения, а само се изреждат да коментират как всичко това е лаишка работа.
Иначе можем да си изреждаме статистически (и нестатистически) методи до полунощ.

Поздрави

otk

  • Global Moderator
  • Sr. Member
  • *****
  • Публикации: 469
    • Профил
Керес, не заемай позицията на ощипаната мома. Освен това никой не спори с теб. Ти завърши своето изследване с няколко въпроса, на които аз положих известно усилие да  отговоря. Не ме карай да съжалявам за което. Ако моите отговори не те задоволяват, можеш просто да не се съобразиш с тях. А за в бъдеще да не четеш, каквото otk е написал. Ами ако и otk греши, нали и той е човек, и той душа носи! Все пак, ще положа още малко усилия, за да изясня своята позиция с ясното съзнание, че съществува вероятност просто да не съм бил разбран. Нека синтезирам за последно нещата така.

Цитат на: keres
а. Защо Управителят на Офис 4 ни замазва така очите?
Този въпрос, всъщност е извод, един твърде генерален извод, който нямаш основание да направиш само въз основа на този елементарен анализ.

Цитат на: keres
b. Какво става в Офиси 5 и 8, та резултатите са такива?
Отговорът на този въпрос изисква да се направи много повече от това, което е направено.

Цитат на: keres
c. Какво да направим превантивно в останалите офиси?
Освен че резултатите са недостатъчни, те са и противоречиви. Допитах се до моята кристална топка (завещана ми от моята баба-оракул), но тя нищо не показа. Моят съвет е на този етап да не се прави нищо, защото каквото и да се предприеме на основание така получените резултати, то ще бъде грешка.

Цитат на: keres
d. Какво още ще се сетите
Това, за което се сетих, вече ти го казах. От тук нататък твое е решението да се съобразиш или не с моето мнение. Вариантите са два:
1. Съгласяваш си с мен, от което следват два подварианта:
1.1 Леко преработваш (принизяваш) целите на своето изследване и не го натоварваш прекалено с толкова големи очаквания и сложни въпроси накрая, или
1.2 Довършваш изследването с многофакторен анализ, придружен от необходимите доказателства за адекватна приложимост и съответна статистическа грешка, последван от стратификация на данните, идентификация и анализ на причините и в крайна сметка, логично обосновани отговори на поставените въпроси.
2. Не си съгласен с моите забележки и оставяш нещата такива, каквито са.

Цитат на: keres
Когато видя нещо твое като анализ тогава бихме могли да продължим темата. Никой не дава реални, конкретни и цифрови примери и предложения,...
Не чакай само на otk или на който и да било в този форум. Тук пишат редовно десетина човека. Да не говорим в колко от средностатистическите фирми в България, Големият Бос позволява на служителите да си „играят” с разни анализчета, вместо да „работят здравата”. Та нали за качеството си имаме Сертификат!
Насочи усилията си към необятното интернет пространство, където примери има много – всичките те с конкретни числа. ;). В някой от книгите в „Ресурси” също има примери. Разбира се в областта на УК информация е по-малко и се намира по-трудно, защото е know-how все пак. Но за сметка на това конкретни примери за приложение на статистическите методи в социално-икономическата сфера, колкото щеш.
Порови... осмисли... сподели...
Нали помниш за личния пример – вече го дъвкахме това. ;)

Цитат на: keres
...а само се изреждат да коментират как всичко това е лаишка работа
Керес, по темата сме писали аз, ти и L. Изобщо няма да ти е трудно да покажеш къде в темата е направен коментар, че статистическите методи са, цитирам, „лаишка работа”. Или само разлайваме кучетата?

Цитат на: keres
Иначе можем да си изреждаме статистически (и нестатистически) методи до полунощ.
Май наистина има нужда от по-сериозна теоретична обосновка преди да се хвърлим в практическото приложение на статистическите методи. За да не се чудим после какво по дяволите да правим с така получените „резултати”.
« Последна редакция: 11/03/2008, 12:47 от otk »

otk

  • Global Moderator
  • Sr. Member
  • *****
  • Публикации: 469
    • Профил
РЕГРЕСИОНЕН АНАЛИЗ

Днес, в условията на глобално развиващи се пазари и галопиращи технологии, все по-често ни се налага бързо да вземаме важни решения в условията на недостиг на информация. С други думи, обстоятелствата ни принуждават да ПРЕДВИЖДАМЕ.

Корелационният анализ постепенно е загубил своето значение, като самостоятелно приложим метод за анализ на зависимости. Неговият по-голям брат, регресионният анализ, притежава някои предимства, които ще ни помогнат да направим едно научно обосновано предвиждане:
– математическо моделиране на формата на зависимостта;
– количествено измерване на зависимостта.

Понятието регресия е употребено за пръв път от Франсис Галтон (братовчед на Дарвин) във връзка с изследвания на наследствеността. Той установил, че децата наследяват белезите на своите родители, но частично. Например, статистически погледнато се забелязва тенденция родителите с относително по-висок ръст спрямо средния, да имат деца с ръст близък до средния. С други думи твърде вероятно е високите родители да имат също високи деца, но не чак толкова. Тази закономерност Галтон нарекъл регресия, т.е. връщане назад. Днес, терминът е станал нарицателен за един от методите за анализ на зависимостти – регресионния анализ, което в интерес на истината не отразява съвсем точно неговата същност.


Част I. ЛИНЕЙНА РЕГРЕСИЯ


1.1 Въведение

Линейната регресия е най-често използвания метод за анализ при изучаване на взаимовръзките между явленията. Приложението му е обосновано, когато връзката между променливите може да се опише с проста линейна функция.


1.2 Математически модел

Ще се ограничим да разгледаме само еднофакторна линейна регресия. Математическият модел на формата на зависимостта, както подсказва определението ще бъде права линия. Всяка права в равнината, може да се представи с уравнение от вида:

y =s + kx, което се нарича декартово уравнение на права.

s – отрязък – разстоянието, което правата отрязва от ординатата Оy
k = tgα – ъглов коефициент на правата – отразява наклона на правата спрямо абсцисата Ох;

На картинка би трябвало да изглежда така:



Колко лесно е при зависимостите от чист функционален тип – на всяка стойност на аргумента, съответства точно една стойност на функцията. Следователно, ако знаем коефициентите k и s, лесно можем да изчислим за всяка стойност на x, съответнитната стойност на y и да построим нашата права в равнината.


1.3 Регресионен модел

Време е да направим връзката между аналитичната геометрия и статистиката, в частност регресионния анализ. За целта да се върнем към вече познатата ни диаграма на разсейване, която ни дава корелационната връзка между две променливи: независима (факторен признак) и зависима (резултативен признак).



Както се вижда от диаграмата, разполагаме с множество точки, които отразяват една статистическа корелационна зависимост. Статистическа, защото е възможно да се установи само при голям брой наблюдения, и корелационна – защото на всяка стойност на независимата променлива, съответстват повече от една стойности на зависимата. Търсената права може да се опише със следния теоретичен модел:


където

β1, β0 – коефициенти на модела, които на този етап са ни неизвестни;
ε – грешка на регресията, към която както ще видим нататък ще имаме едно по-специално отношение.

Следователно, задачата има много решения, всяко от които неминуемо ще бъде свързано с някаква неточност (всъщност, макар и възможно, е малко вероятно, когато изследваме непрекъснати случайни величини, при някои от двойките измерената и изчислената величина да съвпаднат). Тогава, къде измежду всички точки да прекараме онази права, която ще опише най-точно търсения от нас регресионен модел?

За наше щастие съществуват математически методи, които успешно се справят с тази задача. Един от най-често използваните е методът на най малките квадрати (МНМК) (приложен за пръв в статистиката път от Карл Гаус), съгласно който апроксимиращата права се прекарва така, щото да е изпълнено условието сумата от квадратите на всички разлики между емпирични и теоретични стойности да бъде минимална, или:



където
yi - емпирични стойности на резултативния признак, т.е. тези, които сме получили в резултат на нашите наблюдения (това са точките от диаграмата на разсейване);
ŷi – предвидени стойности на резултативния признак, т.е. тези, които трябва да изчислим по нашия модел или още оценени стойности, както се изразяват статистиците (това са точките, през които трябва да мине правата).
n e броят на наблюденията

Забележка: от тук нататък, оценените стойности ще различаваме по калпачето върху съответния символ. Оценените стойности са винаги някакво приближение на действителните

Нека за по-ясно се опитаме да илюстрираме горното с една картинка:



Целта е, прилагайки МНМК за нашата извадка, да изчислим оценките на коефициентите на модела, след което имайки стойностите на независимия фактор (x), да оценим стойностите на резултативния признак (y) и построим нашата права. Следват редица математически операции, които смятам да спестя, а по-любознателните ще намерят из дебелите книги. След малко диференциране, решаване на една система от две уравнения с две неизвестни и някой преобразования, за коефициентите на правата се получава една на пръв поглед стряскаща и една не толкова формули:



Да живее софтуера!

Тогава, моделът на търсената от нас права е:



β1 вече ще наричаме регресионен коефициент, който показва с колко ще се измени зависимата променлива y, при единица изменение на независимата х
β0 – свободен член

И понеже вече се примирихме, че нашата апроксимираща права няма да отразява съвсем точно изследваната зависимост, а с някаква грешка (минимизирана доколкото е възможно от приложения МНМК), можем да запишем:



e е точно онази разлика между емпиричната и теоретичната стойност, която трябваше да бъде минимална, но вече без да я повдигаме на квадрат.Тази разлика се нарича остатък. Въпреки, че остатъците вече изпълниха своята основна роля при прилагането на МНМК, ние все още няма да ги ихвърляме в кошчето (където в реалния живот е мястото на всички остатъци), а като едни истински Плюшкини на статистиката, ще си ги изчислим и приберем грижливо в чекмеджето. С тяхна помощ ще държим под око грешката ε и по нататък ще направим някои важни проверки относно АДЕКВАТНОСТТА на регресионния модел.

И така, най-после получихме така бленувания от нас регресионен модел. Да се чуди човек, колко много се изписа (макар и още повече да се спести) само за една обикновена права. Сега остава в уравнението да заместим вече известните ни оценки на коефициентите на модела β1 и β0 (тези с калпачетата), след което давайки различни значения на независимата променлива х, да предвидим резултата ŷ.

Някой нетърпеливи „изследователи” биха спрели до тук, решавайки че са свършили своята работа, но съществува немалка вероятност да сгрешат. Защото така построен, регресионният модел лежи на несигурността на определени допускания, наложени от границите на нашето познание.


1.4 Важни допускания

Регресионният модел е изведен на базата на няколко допускания – едни от тях важни, други – не толкова. Някой се изпълняват често в действителността, други по-рядко. За част от тях дори съществуват методи за допълнителна обработка на модела, които го правят нечувствителен към неизпълнението им. Принципно погледнато, колкото повече от тези допускания са изпълнени, с толкова по-голямо доверие можем да се отнесем към резултатите от анализа. Един регресионен модел е АДЕКВАТЕН, когато няма алтернативен такъв, който да описва действителната ситуация по-добре. С други думи, при регресионния анализ се прилага принципът на Окам, според който най-простото обяснение е  и най-вярно, докато не се намери друго, по-сложно, което да го опровергае. Ако простият линеен модел се окаже неадекватен, тогава усложняваме нещата и търсим нов от по-висока степен, който при възможност да трансформираме по подходящ начин отново до линеен.
Подробното разглеждане на проблемите свързани с адекватността на модела излиза извън рамките на това кратко описание (по въпроса има написани цели научни трудове). Ето защо, ще се ограничим да изброим само някой от по-важните допускания:

– х и y са непрекъснати случайни величини, представители на силните скали;
– корелационната зависимост между x и y е линейна;
– грешките ε са некорелирани нормално разпределени случайни величини с нулево математическо очакване и еднакви дисперсии σ2 за всяко х.


1.5 Проверки за адекватност на регресионния модел

– анализ на остатъците

Важна информация относно адекватността на регресионния модел може да ни даде визаулният анализ на остатъците. Сега му е времето да ги извадим от чекмеджето, където предвидливо ги бяхме прибрали, защото именно чрез тях ще проверим дали са изпълнени допусканията относно модела. За целта се построяват диаграми на разпределението на остатъците спрямо y, ŷ, x, t. При всички програми, имащи претенциите да правят статистически анализи, това би трябвало да става автоматично. На долната фигура са показани няколко примера за такива диаграми:



Диаграма (a) показва адекватен модел от гледна точка на постоянство на дисперсиите. Точките са разположени относително равномерно около и по цялото протежение на абцисната ос.
Диаграми (b-h) показват наличие на различни аномалии в регресионния модел: непостоянни дисперсии, нелинейност, корелации, периодичност – всичките те, ясен признак за съмнения относно адекватността на модела.
Ако стандартизираме остатъците и забележим някой „самотник” да се е кротнал извън интервала (-2, +2), както е показано на диаграма (i), можем да твърдим, че е налице нетипична спрямо останалите стойност. Това може да се дължи на груба грешка в измерването, която значително да изкриви резултатите от анализа. Но е възможно да се дължи и на някакво специфично смущение, което би представлявало интерес за нас като изследователи. Както и при взаимоотношенията с хората, така и тук е по-добре първо да се опитаме да разберем „самотниците”, а не автоматично да ги отхвърлим от обществото, пардон от експеримента.

Разбира се, освен анализа на остатъците, за проверка на адекватността на модела могат да се използват и други статистически инструменти, например: дисперсионен анализ, критерии за съгласие, хистограми, нормални вероятности диаграми.

– значимост на коефициентите на модела

Тук най-важно е да проверим значимостта на регресионния коефициент β1, По този начин ще потвърдим или отхвърлим адекватността на модела от гледна точка на наличието на линейна корелационна зависимост между х и y. Ако β1 = 0, това означава, че не съществува линейна връзка (от което не следва, че изобщо няма връзка – например такава от по-висока степен).
За целта издигаме двете хипотези:

H0: β1 = 0
H1: β1 ≠ 0

Отхвърлянето на нулевата хипотеза трябва да ни подскаже, че има линейна връзка между x и y.

Статистиката

 
следва t-разпределението на Стюдънт с n-2 степени на свобода.

Неизвестната стойност на дисперсията σ2 на случайната грешка ε ще оценим отново с помощта на любимите ни остатъци:



Изразът Sxx не е нищо повече от знаменателя на вече познатата ни формулата за изчисление на регресионния коефициент, т.е.:



Тогава ако |t0| > t [α/2, n-2], нулевата хипотеза се отхвърля и се приема алтернативната, т.е. регресионния коефициент β1  е статистически значим.


1.6 Интерпретиране на резултатите от анализа

Още в самото начало отбелязахме едно основно предимство на регресионния анализ пред останалите методи за анализ на зависимости, а именно – възможността за количественото измерване на изследваните взаимовръзки. Това предимство ще ни помогне да ПРЕДВИЖДАМЕ с определена вероятност стойностите на резултативния признак (y), чрез задаване на стойности на факторния признак (x).

А защо не и обратното – по така изведения модел, задавайки стойности на (y), да предвидим тези за (х)?
Грешка! За разлика от функционалните уравнения, статистическите модели не са обратими. Веднъж построен, моделът (x.y) описва тази връзка еднопосочно. Ако искаме да предвиждаме (х) по (y), е необходимо да построим нов регресионен модел (y.x), прилагайки МНМК отново, но спрямо (х).

Някой може би ще се изкушат да попитат: а защо не разширим хоризонта на предвиждането отвъд границите на получените стойности за (х), т.е да се опитаме да ПРОГНОЗИРАМЕ?.
Трябва да отбележим, че подобни прогнози са възможни, но обикновено са несигурни, а понякога и безсмислени.
Регресионният модел НЕ Е непременно валиден при провеждането на екстраполационни процедури. Естествено могат да се предприемат някой действия в посока валидиране на модела за едно конкретно приложение. Каквото и да се прави обаче, получените резултати трябва да се тълкуват много предпазливо, особено aко сме се отдалечили доста от интервала на стойностите за (х) получени при експеримента.
Не ме питайте защо, а си спомнете за момента, когато синоптиците за пореден (но не и последен) път разбиха на пух и прах вашите планове за дългоочакваната и така бленувана почивка.

Както и при корелационния анализ, така и тук можем да установим само дали съществува зависимост между двете променливи, но не и да правим генерално заключение за наличие на причинно-следствена връзка между тях. Само точно планиран експеримент, включващ и характерни аналитични методи от областта на науката, където се прилага регресионния анализ, може да установи коя от изследваните величини се явява причина и коя следствие.
« Последна редакция: 13/10/2009, 17:33 от otk »

otk

  • Global Moderator
  • Sr. Member
  • *****
  • Публикации: 469
    • Профил
1.7. Пример*

Проведени са опити с цел да се установи дали съществува зависимост между съдържанието на въглеводороди (x) в обема на кондензатора и чистотата (y) на получения чрез фракционна дестилация кислород. Обемът на направената извадка е n=20.

No   Y %   X %

1   90.01   0.99
2   89.05   1.02
3   91.43   1.15
4   93.74   1.29
5   96.73   1.46
6   94.45   1.36
7   87.59   0.87
8   91.77   1.23
9   99.42   1.55
10   93.65   1.40
11   93.54   1.19
12   92.52   1.15
13   90.56   0.98
14   89.54   1.01
15   89.85   1.11
16   90.39   1.20
17   93.25   1.26
18   93.41   1.32
19   94.98   1.43
20   87.33   0.95

а) да се установи съществува ли корелационна зависимост между данните за x и y;
б) да се построи подходящ регресионен модел и провери за адекватност;
в) да се предвиди каква ще бъде чистотата на получения кислород при количество на въглеводородите 1.5%.

_____________________________
* по Montgomery, Peck and Vining


Решение

За изчисленията може да се изпозва:
– джобен калкулатор – мъка-а-а!!!;
– on-line калкулатор – например www.xuru.org/rt/LR.asp
– електронна таблица (ако притежава подобна функционалност) – например MS Excel, чрез Data Analysis ToolPak (възможно е да не е инсталиран!). Намира се в Tools -> Data Analysis. От списъка с инструменти избирате Regression.
– специализиран софтуер за статистически изследвания.


а)
Първата ни работа ще бъде да пуснем по една хистограма за данните от извадката. Ей тъй, за всеки случай, за да сме спокойни, че няма някакви фрапиращи аномалии в разпределението. Винаги е добре това да бъде първата наша стъпка, естествено ако разполагаме с достатъчно количество данни. Още повече, че ако разполагаме и с подходящ софтуер, трудоемкостта на изчисления не е никакъв проблем.





След което построяваме диаграмата на разсейване и пред очите ни се разстила една добре отъпкана и относително права пътечка от точки.



Коефициентът на корелация r = 0.9367 и е статистически значим. Следователно можем да заключим, че е налице  силна положителна корелационна връзка между x и y. С увеличаване на процентното съдържание на въглеводороди в кондензатора, се увеличава и чистота на получения кислород, като изменението на факторния признак обяснява приблизително 88% от общото изменение на резултативния признак.


б)
Ако използваме софтуер, регресионният модел ще получим лесно. Необходимо е само да включим опцията за „fit”-ване (разбира се линейно, защото пътечката изглежда относително права).



Уравнението на нашия регресионен модел е y = 74.283 + 14, 947x.

Адекватността на модела ще проверим по два от няколкото възможни начина:

- чрез анализ на остатъците
Нека погледнем две от диаграмите на остатъците –  e-ŷ и e-x:





Вижда се, че всички остатъци са относително равномерно разпределени по хоризонталната ос и не се забелязват единични екстремални стойности извън интервала (-2, +2).

- чрез значимостта на коефициента на регресия
t = 11.352 > t [0.025,18]= 2.101 (tизч. е доста далеч от критичната граница на t)
Следователно, емпиричните данни не дават основание да се приеме нулевата хипотеза за вярна и за това тя се отхвърля в полза на алтернативната: коефициентът β1 е различен от нула. Тогава, при приетото ниво на значимост α, с 95% сигурност можем да твърдим, че интервалът (12.181 – 17.713) съдържа истинската стойностит на β1. Следователно, построеният регресионен модел описва една линейна зависимост.


в)
Предвидената стойност за x=1.5 ще изчислим, като го заместим в уравнението на модела:
y = 74.283 + 14, 947.1,5 = 96.704
При приетото ниво на значимост α, с 95% сигурност можем да твърдим, че при съдържание на въглеводороди в кондензатора 1.5%, на изхода ще получим кислород с чистота в интервала (95.72 – 97.69) %.

Да разширим малко условието на задачата и проверим каква чистота за кислорода можем да очакваме при х=1.6. Това е стойност извън интервала на разглежданите стойности на х, т.е. правим прогноза:
y = 74.283 + 14, 947.1,6 = 98.199
Доколкото диаграмата на разсейване не показва някакви асимптоматични наклонности в горния край на интервала за х, можем да допуснем, че линейната регресия ще се запази и малко след последната ни известна стойност за х, т.е. направената прогноза ще бъде вярна със същата вероятност. Едно такова заключение обаче, не почива на никакви  доказателства.

Нека се „изхитрим” и проверим какво ще се получи при х=1.8?
y = 74.283 + 14, 947.1,8 = 101.188
Получената стойност е напълно лишена от логически смисъл, защото е по-голяма от 100%. Последното трябва да ни наведе на мисълта, че трябва да внимаваме много, когато екстраполираме статистически зависимости.

Задачата е решена. А сега накъде?

Нека най-накрая да оставим статистиката настрана и надзърнем за малко в конкретната област на приложение на този примерен регресионен анализ. Видно е, че изследването е тясно свързано с индустриалната химия и по-точно с технологическия процес за производството на кислород.

Като изходна суровина за промишленото производство на кислород се използва… естествено въздух. Различието в температурите на кондензация на компонентите на въздуха, прави възможно тяхното сепариране при определени условия. Прилагат се различни методи на фракционна дестилация, като в резултат, на изхода на процеса се получават кислород и азот с различно качество (чистота). Това е така, защото освен основните си съставки (приблизително 78% азот, 21% кислород и под 1% аргон), въздухът съдържа и различни примеси като въглеродни окиси, инертни газове, въглеводороди и др., които понякога са нежелани в състава на кислорода. За тяхното отделяне се прилагат допълнителни методи на абсорбция, адсорбция, катализа, криогенна обработка. Точно за едни от тези примеси, въглеводородите (главно метан), става въпрос в изследването.

Защо ни беше необходимо това може би скучно за някой отклонение?
За да повдигнем поне мъничко завесата закриваща истинската същност на нещата, която се крие зад всички тези числа, с които боравихме досега. Без да се позоваваме на резултати от конкретни физични и химични изследвания (инженерите-химици, които се занимават с производство на кислород със сигурност са запознати с тях), ще направим едно заключение за наличие на следната причинно-следствена връзка:
високата чистота на получения кислород на изхода на кондензатора се дължи на ефективен процес на пречистване, резултат от който е увеличеното съдържание на въглеводороди вътре в обема на кондензатора.

Надявам се да усетите тънкия момент, че въглеводородите сами по себе си НЕ СА причина за повишаване чистота на получения кислород. Ако прибавим допълнително количество от тях в обема на кондензатора, можем ли да очакваме по-качествен продукт на изхода?
Не разбира се. Защото истинската причина вероятно се крие в някой от параметрите на процеса на пречистване, който го е направил по-ефективен.
« Последна редакция: 05/05/2009, 16:09 от otk »

keres

  • Trusted Users
  • Full Member
  • ****
  • Публикации: 171
    • Профил
Благодаря otk! Дано си успял да поспиш  :)

Едно нещо не ми стана ясно
Тук най-важно е да проверим значимостта на регресионния коефициент β1, По този начин ще потвърдим или отхвърлим адекватността на модела от гледна точка за наличието на линейна корелационна зависимост между х и y. Ако β1 = 0, това означава, че не съществува линейна връзка (от което не следва, че изобщо няма връзка – например такава от по-висока степен).
За целта издигаме двете хипотези:

H0: β1 = 0
H1: β1 ≠ 0

Отхвърлянето на нулевата хипотеза трябва да ни подскаже, че няма линейна връзка между x и y.

- чрез значимостта на коефициента на регресия
β1 = 11.352 > t [0.025,18]= 2.101
Следователно, емпиричните данни не дават основание да се приеме нулевата хипотеза за вярна и за това тя се отхвърля. За вярна се приема алтернативната хипотеза: коефициентът β1 е различен от нула.

До колкото разбирам си формулирал хипотезите по еднакъв начин и в теорията и в примера, който си дал.

H0: β1 = 0
H1: β1 ≠ 0

Първият път казваш, че ако коефициентът е равен на нула няма линейна връзка. После казваш, че отхвърлянето на нулевата хипотеза H0: β1 = 0 (респективно тогава другата е вярна) означава, че няма линейна връзка между х и у. Последното се подкрепя и от примера който си дал. Коефициентът е различен от 0 и има силна положителна зависимост.

Има ли грешка или аз нещо не разбирам?

Поздрави

otk

  • Global Moderator
  • Sr. Member
  • *****
  • Публикации: 469
    • Профил
Нулевата хипотеза твърди, че регр. коефициент е нула. Замести неговият еквивалент k в уравнението на правата с нула и ще получиш ф-я от вида y=const (права успоредна на оста Оx). Това прехвърлено върху регресионния модел означава само едно: няма корелационна връзка. Когато отхвърлим нулевата хипотеза и се съгласим с алтернативната, следва че коеф. е различен от нула, т.е имаме линейна зависимост.
И на двете места твърдя едно и също. Просто нулевата хипотеза в случая се явява противоположното на това, което искаме да докажем.

keres

  • Trusted Users
  • Full Member
  • ****
  • Публикации: 171
    • Профил
Съгласен съм, но това не е ли противоположното на това:

H0: β1 = 0
H1: β1 ≠ 0

Отхвърлянето на нулевата хипотеза трябва да ни подскаже, че няма линейна връзка между x и y.

Още повече, че сега казваш (и съм съгласен) това:

Когато отхвърлим нулевата хипотеза и се съгласим с алтернативната, следва че коеф. е различен от нула, т.е имаме линейна зависимост.

otk

  • Global Moderator
  • Sr. Member
  • *****
  • Публикации: 469
    • Профил
Разбрахме се. Тука има, тука нема...
Техническа грешка. Ще го оправим

ПП Или едното "няма" трябваше дастане "има",
или "отхвърлянето", трябваше да стане "приемането".
Предпочетох първото.

Керес, благодаря за поправката!
Назначен си официално за редактор на отк.
« Последна редакция: 11/04/2008, 12:13 от otk »

keres

  • Trusted Users
  • Full Member
  • ****
  • Публикации: 171
    • Профил
 :)
Не знам... голяма отговорност си е това... редактор на otk  :)

Поздрави

L

  • Newbie
  • *
  • Публикации: 21
    • Профил
ОТК, показания пример е  много полезен. Данните и решението , твоя заслуга ли  са?  Какъв софтуер е използван за решаване на задачата?

10x предварително!