Jednoczynnikowa analiza wariancji.doc

(15915 KB) Pobierz
Jednoczynnikowa analiza wariancji:

Jednoczynnikowa analiza wariancji:

 

Analiza wariancji jest metodą statystyczną, która pozwala na testowanie hipotez o równości średnich w co najmniej trzech porównywanych grupach. Można ją uznać za uogólnienie testu t dla prób niezależnych na sytuację z większą ilością porównywanych grup. Zanim przystąpimy do formalnego omówienia statystyki służącej do weryfikowania takich hipotez, prześledźmy założenia, jakie muszą być spełnione, aby użycie tej analizy było uzasadnine:

 

Założenia analizy wariancji:

1.      Podobnie, jak w przypadku testu t, musi być spełniony warunek przedziałowości skali pomiaru zmiennej zależnej (tej, z której wyliczane są średnie). Zmienna niezależna, inaczej nazywana grupującą może być mierzona na dowolnej skali.

2.      Wymagana jest równoliczność porównywanych grup (w praktyce analiza wariancji prowadzi do sensownych wyników, jeśli najmniejsza z porównywanych grup nie jest ponad 5-ciokrotnie mniejsza od najliczniejszej grupy).

3.      Pomiary zmiennej zależnej powinny mieć rozkład normalny w porównywanych grupach. W praktyce okazuje się, że test F jest dość odporny na niespełnienie założenia o normalności rozkładu zmiennej zależnej, ale jest wrażliwy na odchylenia od symetryczności tego rozkładu.

4.      Wariancja pomiarów powinna być taka sama we wszystkich grupach – niespełnienie tego założenia może prowadzić do zawyżania wartości testu F i do zbyt wielu odrzuceń hipotezy zerowej, H0.

5.      Pomiary w obrębie grupy powinny być statystycznie niezależne.

 

Często można się spotkać ze skróconą wersją nazwy tej metody – ANOVA, jest to zlepek pierwszych liter angielskiej nazwy Analysis Of Variance.

Testowi w przypadku analizy wariancji podlega hipoteza zerowa o równości wszystkich średnich grupowych. Formalnie można ją ująć następująco:

Hipoteza zerowa:

H0: m1 = m2 = m3 = ... = m,

              gdzie mi oznacza średnią ze zmiennej zależnej w i-tej grupie, a m średnią ogólną.

 

              Wobec tego hipoteza alternatywna mówi, że istnieją co najmniej dwie takie populacje, w których porównywane średnie są różne.

             

              W większości sytuacji analiza wariancji jest wykorzystywana, kiedy chcemy sprawdzić, czy zmiana poziomu czynnika (wartości zmiennej grupującej) idzie w parze ze zmianą wysokości uzyskiwanych przez osoby badane wyników, a zatem i średniej z tych wyników. Na przykład można wyobrazić sobie sytuację, w której osoby badane poddawane są manipulacji poziomem stresu, jaki odczuwają przed podjęciem próby rozwiązywania testu. Po poddaniu badanych tej manipulacji, wszystkie osoby badane przystępują do rozwiązywania zadań. To, do której z grup ze względu na poziom odczuwanego stresu należą badani można zapisać jako wartości zmiennej niezależnej (np. podwyższony poziom stresu, obniżony poziom stresu oraz grupa kontrolna, nie poddawana żadnej manipulacji), natomiast ich wyniki w teście, jako wartości zmiennej zależnej.

 

              Statystyka, na podstawie której podejmuje się decyzję o przyjęciu bądź odrzuceniu hipotezy zerowej, nazywa się statystyką F i jest wyznaczana następująco:

 

.

 

              Co oznaczają te terminy? Wariancja międzygrupowa jest miarą rozproszenia średnich uzyskanych w porównywanych grupach w stosunku do średniej ogólnej. Formalnie wariancja międzygrupowa dana jest wzorem:

gdzie mi oznacza średnią ze zmiennej zależnej w i-tej grupie (w oparciu o wyniki osób z tej grupy), a m średnią ogólną (wyliczoną w oparciu o wszytkie wyniki osób badanych), k jest parametrem opisującym ilość porównywanych grup. Licznik tej statystyki nazywa się międzygrupową sumą kwadratów, a mianownik międzygrupowymi stopniami swobody.

Jeśli prawdziwa jest hipoteza zerowa, a zatem wszystkie średnie grupowe, a także średnia ogólna są sobie równe, to wariancja międzygrupowa wynosi 0 – nie ma żadnej zmienności w porównywanych średnich grupowych. Im większe jest zróżnicowanie między porównywanymi grupami, tym większa jest również wariancja międzygrupowa, a wobec tego również wartość statystyki F. Jak widać duże wartości statystyki F przemawiają „przeciwko” hipotezie zerowej.

              Wariancja wewnątrzgrupowa jest natomiast miarą rozproszenia wyników w obrębie grupy, do której należy dany wynik. Wariancja wewnątrzgrupowa dana jest wzorem:

gdzie xi oznacza i-ty wynik w danej grupie, jest średnią z wyników w i-tej grupie, jest ilością osób w i-tej grupie, xij jest wartością zmiennej zależnej dla j-tej osoby z i-tej grupy, a n oznacza ilość wszystkich osób badanych, zaś k ilość porównywanych grup. Licznik tej statystyki nazywa się wewnątrzgrupową sumą kwadratów, zaś mianownik wewnątrzgrupowymi stopniami swobody.

Jeśli wysokość uzyskiwanych wyników byłaby uzależniona wyłącznie od poziomu czynnika (we wcześniejszym przykładzie od poziomu stresu), to w obrębie każdej z grup wariancja wynosiłaby 0, a zatem cała wariancja wewnątrzgupowa również 0. W praktyce nigdy nie zdarza się taka sytuacja, ponieważ na wysokość uzyskiwanych przez osoby badane wyników mają wpływ również inne, nie kontrolowane przez badacza czynniki (na przykład poziom inteligencji, stopień zmęczenia oraz doświadczenie osób badanych w rozwiązywaniu podobnych zadań). Ale jeśli czynnik kontrolowany ma duże znaczenie w porównaniu z pozostałymi, to wariancja wewnątrzgrupowa powinna być niewielka (a zatem mianownik statystyki F mały, a to oznacza, że wartość statystyki F duża). Natomiast jeśli pozostałe czynniki miały większy wpływ na wartości zmiennej zależnej niż czynnik kontrolowany, to zmienność wyników w porównywanych grupach będzie większa, więc i wariancja wewnątrzgrupowa też, a zatem wartości statystyki F będą mniejsze.

Uwaga: Gdybyśmy chcieli policzyć wariancję wyników zmiennej zależnej dla wszystkich osób razem wziętych, to należało by skorzystać ze wzoru:

Okazuje się, że w przypadku pojawiającej się w liczniku sumy kwadratów odchyleń wyników od średniej możliwe jest rozbicie jej na dwa fragmenty – wariancji wewnątrzgrupowej oraz wariancji międzygrupowej (opisanych powyżej). Tę własność wariancji nazywa się addytywnością. Zatem możemy powiedzieć, że istnieją dwa źródła powstawania odchyleń od średniej ogólnej – związane z wariancją międzygrupową różnice wynikające z przynależności do różnych grup, oraz tak zwany błąd związany z wariancją wewnątrzgrupową.

Podobne zależności obserwuje się dla stopni swobody, czyli mianowników wyrażeń opisujących wariancję – całkowite stopnie swobody są sumą stopni swobody między- i wewnątrzgrupowych. Zatem stopnie swobody również są addytywne.

.

 

              Zarówno przy omawianiu wariancji międzygrupowaj, jak i wewnątrzgrupowej, doszliśmy do takich samych wniosków – większe wartości statystyki F przemawiają przeciwko hipotezie zerowej (o równości średnich ze zmiennej zależnej w porównywanych grupach).

Test analizy wariancji został skonstruowany w oparciu o założenie, że we wszystkich porównywanych grupach zmienna zależna ma rozkład normalny. Przyjmijmy, że to, a także założenie o równoliczności porównywanych grup są spełnione.W takiej sytuacji możliwe jest wyznaczenie rozkładu wartości statystyki F przy prawdziwości hipotezy zerowej. Na podstawie wcześniejszych rozważań wiadomo już, że najbardziej prawdopodobne powinny być niewielkie wartości statystyki F, natomiast większe (te, które są najbardziej niezgodne z hipotezą zerową) mniej prawdopodobne.

Przykłady rozkładów gęstości tej statystyki dla różnych par stopni swobody (czyli różnej ilości porównywanych grup oraz ilości osób badanych) wyglądają następująco:

 

14

 


Fkrytyczne=2,400410

 

 

Fkrytyczne=2,305318


Fkrytyczne = 2,790009

 

Fkrytyczne=2,695536


 


Podobnie, jak w innych testach statystycznych z ustalonym poziomem istotności a, obszar krytyczny (czyli taki przedział wartości statystyki F, że uzyskanie wyniku wpadającego do tego przedziału powoduje odrzucenie hipotezy zerowej) znajduje się w obszarze wyników najmniej zgodnych z hipotezą zerową i ma stanowić a wszystkich możliwych wyników. W przypadku analizy wariancji do testowania hipotezy o równości średnich będzie to a największych wyników. Na powyższych wykresach pionowe linie oddzielają 5% wszystkich największych wyników, zatem obszary krytyczne składają się z takich wartości statystyki F, które leżą na prawo od tych linii. Otrzymanie wyniku, który wpadnie do obszaru krytycznego jest równoznaczne z odrzuceniem hipotezy zerowej na poziomie istostności a (w naszym przykładzie a = 0,05). Jak widać na wykresach, wartość krytyczna testu F jest uzależniona od pary stopni swobody i zmienia się w zależności od tych parametrów.

 

Wykonywanie analizy wariancji w pakiecie SPSS



Wykonamy teraz przykładową analizę wariancji – przypuśćmy, że chcemy sprawdzić, czy prawdziwa jest hipoteza o równości średnich dochodów w każdej z grup wyróżnionych na podstawie regionu zamieszkania. W naszym przypadku zmienną zależną jest zmienna dochód (RINCOME), zaś grupującą (czynnikiem, zmienną niezależną) zmienna region zamieszkania (REGION8). Aby wykonać taką analizę, należy wejść do menu Analiza, następnie wybrać Porównywanie średnich, a potem Jednoczynnikowa ANOVA.



Po wybraniu tej opcji, pojawi się okienko dialogowe analizy wariancji. Do okienka z napisem Zmienne zależne należy przerzucić zmienną RINCOME, zaś do paska Czynnik zmienną grupującą, którą w naszym wypadku jest zmienna REGION8. Jednoczesne wrzucenie do okienka zmiennych zależnych kilku zmiennych spowoduje, że zostanie przeprowadzonych kilka analiz wariancji przy tej samym czynniku i kolejno zmieniających się zmiennych zależnych. Za każdym razem uzyskamy jednak jedynie odpowiedź na pytanie, czy średnie z jednej zmiennej zależnej można uznać za równe (w populacji). Po uzupełnieniu okienek można kliknąć OK, po czym w oknie raportu pojawi się tabela wyniku testu:

W tabelce znajdują się informacje na temat oszacowania wariancji wewnątrz- i międzygrupowej (nazywane tutaj średnimi kwadratami – między grupami oraz wewnątrz grup), a także służące do ich obliczenia sumy kwadratów (odchyleń od odpowiednich średnich), czyli liczników ze wzoru na wariancje oraz  stopnie swobody (df). Po ilości stopni swobody możemy na przykład wywnioskować, ile osób zostało uwzględnionych w naszej analizie, a także, do ilu grup osoby te zostały przydzielone. Ponieważ ilość stopni swobody dla wariancji międzygrupowej wynosi 7 (=k-1, gdzie k jest ilością porównywanych grup), to wiadomo, że porównywano 8 grup. Ilość osób, jakie wzięły udział w badaniu możemy wyznaczyć albo na podstawie całkowitych stopni swobody (46 = n-1), co daje rezultat 47 osób, albo na podstawie  wewnątrzgrupowych stopni swobody (39 = n – k = n – 8). Oczywiście wynik końcowy jest taki sam – mamy zatem 47 osób w 8 grupach.

Odczytywanie wyniku analizy wariancji odbywa się na analogicznych zasadach, co w przypadku innych testów opartych na istotności – w naszym przypadku istotność testu wynosi p = 0,591, jest większa od założonego poziomu istotności a = 0,05, zatem nie mamy podstaw do odrzucenia hipotezy zerowej (we wszystkich regionach średni dochód jest taki sam). Gdyby istotność była mniejsza od poziomu istotności, należało by odrzucić hipotezę zerową, a zatem przyjąć, że istnieją co najmniej dwie grupy, dla których średnie różnią się.

Prawidłowy zapis wyniku analizy wariancji jest następujący F(7, 39) = 0,802, p = 0,591. Przy podawaniu wartości statystyki F konieczne jest podanie pary stopni swobody – najpierw dla wariancji międzygrupowej, następnie dla wariancji wewnątrzgrupowej.

 

Testy porównań wielokrotnych

Po wykonaniu analizy wariancji jeteśmy w stanie stwierdzić bądź, że wszystkie średnie grupowe mogą zostać uznane za równe, bądź, że co najmniej dwie z nich różnią się. Przypuśćmy, że uzyskaliśmy istotną analizę – wiemy zatem, że jakieś grupy różnią się. Niestety, na podstawie samej tabelki analizy wariancji nie możemy powiedzieć, między którymi średnimi istnieją różnice. Aby poznać odpowiedź na to pytanie, należy przeprowadzić dodatkowe analizy - testy porównań wielokrotnych, zwane również testami post hoc. Te testy testują kolejno równość średnich dla każdej pary grup, wracamy więc do takiej samej sytuacji, z jaką mieliśmy do czynienia w przypadku testów t dla prób niezależnych. Testy porównań wielokrotnych różnią się jednak od zwykłych testów t, co ma na celu zmniejszenie szansy popełnienia błędu przy ocenie istotności różnic między porównywanymi grupami.

Zastanówmy się przez chwilę, co by się stało, gdybyśmy do testów porównań wielokrotnych użyli testów t. W przypadku pojedynczego testu, wybrany przez badacza poziom istotności informuje o tym, jak duże jest ryzyko popełnienia błędu polegającego na odrzuceniu prawdziwej hipotezy zerowej (a zatem na wykryciu faktycznie nieistniejących różnic). Jeśli przeprowadzamy taki test jednorazowo, to prawdopodobieństwo popełnienia błędu wynosi a, zaś prawdopodobieństwo uzyskania wyniku zgodnego z faktami (1-a). Jeśli będziemy wykonywać testy na tym samym zbiorze średnich wielokrotnie, to po wykonaniu k testów prawdopodobieństwo, że każdy z nich dał dobry wynik wynosi (1 - a)k, zaś ryzyko popełnienia błędu 1 - (1 - a)k. Na przykład, jeśli chcielibyśmy stosować testy t do weryfikacji równości średnich w 5-ciu grupach, to ilość możliwych porównań par wynosi 10 i ryzyko popełnienia błędu polegającego na wykazaniu różnic pomimo ich braku wynosi ponad 0,40 zamiast pierwotnego poziomu istotności a = 0,05. Jak widać, wraz z rosnącą liczbą porównań, rośnie również prawdopodobieństwo odrzucenia prawdziwej hipotezy zerowej. W związku z tym wprowadza się poprawki, które korygują ten błąd. Testy post-hoc są właśnie takimi „udoskonalonymi” narzędziami do wykonywania wielokrotnych porównań. SPSS oferuje różne typy testów – ich zastosowanie uzależnione jest od typu danych, z jakimi mamy do czynienia oraz celu, do którego zmierzamy. Poniżej znajdują się krótkie opisy podstawowych typów testów post-hoc:

·         Scheffe - najbardziej konserwatywny test. Wartość krytyczna dobrana jest tak, aby ustalone dla wszystkich porównań łącznie prawdopodobieństwo odrzucenia hipotezy zerowej, gdy jest prawdziwa, nie przekraczało wybranej wartości (np. a = 0.05). Daje to w efekcie najbardziej konserwatywny test spośród wszystkich procedur post hoc. Jeżeli ogólne F nie jest istotne, żadne z badanych testem Scheffego porównań na pewno nie będzie istotne. Zaletą tej metody jest to, że można ją wykorzystywać dla dowolnych porównań, nie tylko prostych par średnich, jeśli tylko daje się je wyrazić w postaci kontrastu (patrz niżej).

·         Tukey - ma większą moc niż test Scheffego (tzn. jest mniej konserwatywny i pozwala łatwiej wychwycić różnice między grupami), ale oczywiście mniejszą niż dowolne porównania a priori. Wykorzystuje statystykę Q, a nie F. Jeśli porównania post hoc ograniczamy do porównań par średnich (tzn. nie konstruujemy specjalnych kontrastów), nie ma potrzeby stosowac testu Scheffego – test Tukeya uwzględnia największą poprawkę na poziom prawdopodobieństwa, wynikającą z liczby możliwych porównań par średnich.

·         Duncan - korzysta także ze statystyki Q, na której opiera się test Tukey’a, jednak przyjmuje różne wartości krytyczne, w zależności od tego, ile średnich mieści się pomiędzy dwiema porównywanymi średnimi. A zatem wielkość różnicy wymaganej dla uzyskania istotnego wyniku zależy od tego, jak daleko znajdują się od siebie porównywane średnie (ważny jest porządek, czyli rangi, a nie konkretne wartości średnich). Im bardziej średnie są od siebie oddalone, tym słabsze jest kryterium istotności i łatwiej uzyskać istotne wyniki. Test Duncana jest bardziej czuły od Tukeya (tzn. mniej konserwatywny).

·         Bonferroni - wykonuje testy t-Studenta, ale bierze poprawkę na ich ilość czyli na liczbę wykonywanych porównań; "umiarkowany" w poprawkach na prawdopodobieństwo.

·         Najmniejszych Istotnych Różnic (NIR) - równoważny z wykonywaniem testów t-Studenta dla każdej pary grup, nie wprowadza żadnej poprawki na prawdopodobieństwo; nie polecany, bo przekłamuje prawdopodobieństwa.

 

 

Wykonywanie testów porównań wielokrotnych w SPSS-ie

Zanim przystąpimy do wykonania testów porównań wielokrotnych, należy przede wszystkim wykonać analizę wariancji – jedynie, jeśli analiza okaże się istotna, jest sens przeprowadzania analizy post-hoc. Przeprowadźmy analizę wariancji ze zmienną zależną HRS (średnia liczba godzin przepracowywanych tygodniowo przez osobę badaną) oraz czynnikiem opisującym poziom wykształcenia osób badanych. Aby zapewnić względną równoliczność porównywanych grup, dla potrzeb analizy wariancji została stworzona nowa zmienna NEDUC  z wartościami:

1 – wykształcenie co najwyżej podstawowe (do 8 lat edukacji)

2 – wykształcenie niepełne średnie lub zawodowe (10 lat)

3 – wykształcenie średnie (12)

4 – wykształcenie wyższe niż średnie (ponad 12 lat edukacji).

Weryfikujemy zatem hipotezę o równości średniej ilości godzin spędzanych w pracy w każdej z 4 wyróżnionych na podstawie wykształcenia grup. Analiza wariancji dała w tym wypadku wynik istotny stastystycznie F(3,44) = 4,453, p < 0,05:

 



Mamy zatem podstawy do przeprowadzenia testów porównań wielokrotnych, aby móc ustalić, między którymi grupami występują istotne statystycznie różnice. W tym celu ponownie wchodzimy do okna dialogowego analizy wariancji (Analiza ® Porównywanie średnich ® Jednoczynnikowa ANOVA), a następnie klikamy na przycisk Post hoc. W okienku porównań wielokrotnych stawiamy parafkę przy wybranym rodzaju testu – tym razem niech będzie to test Bonferroniego – a następnie Dalej  i OK.

W oknie raportu pojawia się wówczas kolejna analiza wariancji wraz z testem porównań wielokrotnych Bonferroniego. Poniżej znajduje się taka tabelka wyników. Zasady odczytywania wyników są zbliżone do odczytywania wyników testów t. Dwie skrajne lewe kolumny tabelki mają nagłówki opisujące i-te i j-te porównywane grupy, w następnej kolumnie znajduje się informacja o tym, ile wynosi różnica między średnimi w tych grupach (od średniej w i-tej grupie odjęta jest średnia wyliczona dla j-tej grupy). Zobaczmy to na przykładzie drugiego wiersza wyników – pierwszą z porównywanych grup jest grupa „1” (czyli osób z wykształceniem nie wyższym niż podstawowe ), drugą grupa „3” (wykształcenie średnie), różnica w średniej ilości godzin spędzanych w pracy przez osoby badane z tych dwóch grup wynosi 25,79. Na tej podstawie możemy ocenić, że osoby z grupy „1” średnio spędzają więcej czasu w pracy niż osoby z grupy „3” (różnica jest dodatnia, więc większa musiała być wartość uwzględniona jako pierwsza), wiadomo również, że spędzają go średnio o ponad 25 godzin więcej. W kolejnej kolumnie wyliczona jest wartość błędu standardowego tego oszacowania, a następnie – najważniejsza informacja – istotność takiej różnicy. Jak zwykle, jeśli istotność spada poniżej założonego poziomu istotności, możemy odrzucić hipotezę o równości porównywanych średnich, a zatem mamy podstawy do stwierdzenia, że średnia długość pracy jest inna w grupie „1” niż w grupie „3”. Do takiego samego wniosku moglibyśmy dojść analizując 95%-owy przedział ufności dla różnicy średnich – jeśli między dolną a górną granicą tego przedziału znajduje się 0, to znaczy, że przyjmujemy możliwość, że różnica średnich wynosi 0 – a zatem nie ma różnic między porównywanymi grupami. Jeśli natomiast obie granice są tego samego znaku, to wiadomo, że różnica jest istotna statystycznie.

Aby łatwiej było zauważyć, które grupy różnią się od siebie, przy istotnych różnicach średnich pojawiają się znaki *. Automatycznie poziom istotności, na jakim weryfikowana jest ta hipoteza, jest ustalony na a = 0,05. Jeśli przeprowadzamy badanie z innym poziomem istotności, można albo partrzeć wyłącznie na kolumnę istotności, albo zmienić zasady oznaczani...

Zgłoś jeśli naruszono regulamin