Rozdzial_Rzetelnosc.doc

(504 KB) Pobierz
5

Konrad Jankowski i Marcin Zajenkowski

5. Jakich informacji o teście dostarcza testowanie

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.3. Metody badania rzetelności testu

 

              Z zaprezentowanej w poprzednim rozdziale definicji rzetelności wynika, że jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych. Jednakże wynik prawdziwy nie jest wielkością bezpośrednio obserwowalną, więc nie można również obliczyć bezpośrednio wariancji wyników prawdziwych. Oznacza to, że ze wzoru definicyjnego nie da się obliczyć rzetelności testu. Opracowano więc szereg metod, które to umożliwiają. I tak, operacyjnie definiuje się rzetelność jako powtarzalność wyników. Mówiąc inaczej, im wyższa rzetelność testu, tym wyniki z drugiego pomiaru są bardziej zbliżone do wyników z pierwszego badania, co w praktyce będzie oznaczało wysoką korelację między nimi. Należy zauważyć, że oba pomiary mogą być zależne od siebie, gdyż osoba badana podczas drugiego badania testem będzie już go znała, będzie przypuszczalnie w innym stanie psychofizycznym a warunki zewnętrzne będą prawdopodobnie inne. Wprowadza się zatem pojęcie testów równoległych, które wyznacza warunki jakie powinny być spełnione, aby uzyskany współczynnik korelacji między pomiarami można interpretować jako rzetelność testu.

Testy równoległe to takie, które spełniają następujące założenia:

-          A=B, czyli średnia wyników w teście A równa się średniej wyników w teście B;

-          SDA=SDB, czyli odchylenie standardowe w teście A jest takie jak w teście B;

-          riAjA=r iBjB, czyli interkorelacje pozycji w teście A są takie jak w teście B;

-          rAZ=rBZ, czyli korelacja wyników testu A z jakąś zmienną Z jest taka jak korelacja wyników testu B z tą samą zmienną Z.

Ponadto, co jest oczywiste, testy równoległe powinny mierzyć ten sam konstrukt teoretyczny. W przeciwnym wypadku nawet na podstawie wysokiego współczynnika korelacji między dwoma testami spełniającymi warunki równoległości, nie będzie można wnioskować o tym na ile wynik otrzymany w teście odzwierciedla wynik prawdziwy.

Poniżej opisane są praktyczne metody szacowania rzetelności. Założenie o równoległości testów dotyczy każdej z nich. I tak, w wypadku badania wiarygodności testu i stabilności bezwzględnej istotne jest, aby założenie równoległości było spełnione dla obu pomiarów tym samym testem. Przy badaniu równoważności międzytestowej i stabilności względnej istotne jest by założenie równoległości spełniały wersje alternatywne testów. Natomiast w badaniu rzetelności metodą połówkową jako testy równoległe traktowane są połowy testu, a w zgodności wewnętrznej poszczególne jego pozycje.

Należy zauważyć, że na współczynnik rzetelności, uzyskane przez zastosowanie każdej z metod, wpływają różne czynniki. Podstawowym czynnikiem, który interesuje badacza jest rzetelność testu. Ponadto występują dodatkowe czynniki, wpływające na wielkość współczynnika rzetelności, które są związane ze specyfiką konkretnej procedury badania rzetelności. Stanowią one dodatkowe źródło błędu pomiaru, zniekształcając tym samym wielkość współczynników rzetelności. Ważne jest, aby dobierając metodę badania rzetelności minimalizować wpływ tych dodatkowych czynników, tak, by uzyskany współczynnik rzetelności związany był przede wszystkim z doskonałością samego testu.

 

5.3.1. Metoda powtarzanego pomiaru

 

              Metoda szacowania rzetelności za pomocą powtarzanego pomiaru polega na dwukrotnym badaniu tych samych osób tym samym testem. Miarą rzetelności jest siła związku pomiędzy wynikami z obu badań. Takie oszacowanie może być przeprowadzone na dwa sposoby, różniące się odstępem czasu między pierwszym i drugim badaniem.

Pierwszy z nich nazywany jest estymacją wiarygodności testu. Polega na tym, iż badani wykonują ten sam test dwa razy z rzędu, tzn. po skończeniu pierwszego badania następuje natychmiast drugie. Miarą rzetelności jest tu współczynnik korelacji pomiędzy wynikami obu pomiarów testem grupy osób. Badacze wskazują na szereg możliwych źródeł błędu związanych z tą metodą. Na wyniki pomiaru mogą bowiem, oprócz niedoskonałości narzędzia, wpływać chwilowe oscylacje funkcji poznawczych, stanu organizmu, pamięci i nabyta wprawa w wykonaniu testu a także zmęczenie (Choynowski, 1971). Metoda ta powinna zatem być stosowana jedynie w przypadku testów, w których powtarzanie badania nie wpływa istotnie na wyniki, np. testów motorycznych, czy testów, w których wskaźnikiem jest czas reakcji.

Drugi sposób szacowania rzetelności przy pomocy powtarzanego pomiaru tym samym testem polega na tym, iż pomiędzy pierwszym i drugim badaniem tej samej grupy osób wprowadza się jakiś odstęp czasowy, np. tydzień, dwa miesiące itp. Metoda ta nazywa się estymacją stabilności bezwzględnej testu lub popularnie test-retest (czasem używa się również nazwy stałość testu). Wielkość współczynnika korelacji (najczęściej r Pearsona) pomiędzy dwoma zbiorami wyników (z pierwszego i drugiego wykonania testu) jest tu miarą rzetelności. Stabilność bezwzględna mówi o tym, na ile wyniki testu są niezależne od losowych czynników związanych z osobą badaną lub sytuacją badania i na ile są stałe w czasie. Kwestia interpretacji współczynnika stabilności bezwzględnej jako stałości wyników w czasie zostanie bardziej szczegółowo omówiona w dalszej części rozdziału.

Psychometrzy wskazują na problemy związane z tą techniką (np. Brzeziński, 1996). Wiążą się one z faktem, iż osoby badane mają do czynienia dwukrotnie z tym samym testem. Prezentowany podczas drugiej sesji materiał nie jest dla nich nowy, tak jak przy pierwszym badaniu. Na wyniki drugiego pomiaru mogą zatem wpływać takie czynniki jak pamięć czy uczenie się. Może to być szczególnie widoczne w testach inteligencji, np. takich, w których sprawdza się czyjąś wiedzę ogólną (np. w podteście „Wiadomości” z WAIS-R) lub znajomość synonimów słów (w podteście „Synonimy” z APIS-Z). Należy zdawać sobie sprawę, iż badając kogoś dwukrotnie tym samym testem, nie możemy wykluczyć, że w przerwie między pomiarami ktoś po prostu posiądzie nową wiedzę i np. dowie się jaki jest synonim słowa prezentowanego we wcześniejszym badaniu. Ważne jest zatem, aby badana właściwość nie uległa zmianie podczas przerwy między pierwszym i drugim badaniem testem.

W pewnych przypadkach zmiana właściwości jest na tyle wyraźna, że stosowanie metody test-retest staje się w ogóle nieuzasadnione. Będzie to szczególnie zauważalne u dzieci, które podlegają dynamicznemu rozwojowi. Dobrym przykładem jest tu test DMI (Diagnoza Możliwości Intelektualnych) opracowany przez Matczak (2001). Zdaniem autorki test ma mierzyć zdolność do operacyjnego myślenia, zgodnie z koncepcją Piageta. Owa zdolność kształtuje się w stadium operacji konkretnych (czyli w wieku od 6-7 lat do 11-12 lat). Badając zmiany rozwojowe, Matczak porównywała poprawność wykonania DMI-2M w różnych grupach wieku dzieci (od 6 do 10 lat). Okazało się, że poprawność wykonania istotnie wzrasta wraz z wiekiem. Pomiar stabilności bezwzględnej byłby w tym przypadku wysoce ryzykowny, gdyż zmiany w wykonaniu zadań mogłyby być widoczne nawet w krótkim okresie. Oznaczałoby to, że nie zostało spełnione założenie o równoległości testów, ponieważ średnia w drugim pomiarze byłaby wyższa niż w pierwszym. W związku z tym rzetelność szacowano inną metodą – zgodności wewnętrznej.

Podstawowym problemem staje się długość przerwy pomiędzy pomiarami. Niestety nie ustalono optymalnego odstępu czasowego. W związku z tym proponuje się, aby przerwa pomiędzy badaniami była na tyle długa, aby badani zdążyli zapomnieć prezentowany wcześniej materiał. Jednakże zbyt długa przerwa może spowodować, iż cecha mierzona przez test zmieni się u badanego.

Biorąc pod uwagę powyższe zastrzeżenia badacze proponują, aby przerwa między pomiarami wahała się, od kilku tygodni do kilku miesięcy. Odstęp zależy zazwyczaj od specyfiki przedmiotu pomiaru. Badając styl (np. poznawczy) czy postawę możemy oczekiwać szybszych zmian (zalecana przerwa krótsza), niż w przypadku np. cech temperamentu (zalecana przerwa dłuższa). W polskiej adaptacji Kwestionariusza Radzenia Sobie w Sytuacjach Stresowych (ang. Coping Inventory of Stressful Situations, CISS) badano stabilność bezwzględną stylów radzenia sobie ze stresem w odstępie 2-3 tygodni (Strelau, Jaworowska, Wrześniewski i Szczepaniak, 2005). Korelacje dla poszczególnych skal były dość wysokie i wahały się od 0,73 do 0,80.

Strelau i Zawadzki (1997) w badaniach nad FCZ-KT (Formalna Charakterystyka Zachowania – Kwestionariusz Temperamentu), narzędziem do pomiaru cech temperamentu postulowanych przez regulacyjną teorię temperamentu, zdecydowali się oszacować stabilność bezwzględną krótkoterminową (dwutygodniowa przerwa pomiędzy badaniami) oraz długoterminową (przerwa sześciomiesięczna). Współczynniki korelacji dla stałości krótkoterminowej wahały się od 0,68 do 0,93, a dla długoterminowej od 0,55 do 0,90 (w zależności od wieku i płci badanej grupy).

Warto zwrócić uwagę, że na wyniki badania metodą test-retest, oprócz pamięci i uczenia się, mogą wpływać również czynniki związane z konkretną sytuacją, w której dokonywany jest pomiar (np. pora dnia, nastawienie badacza itp.) oraz stan osoby badanej (aktualny nastrój, stan fizyczny itp.). Wybierając stabilność bezwzględną do szacowania rzetelności testu należy o tym pamiętać. Ma to szczególne znaczenie w przypadku narzędzi mierzących stan, a nie cechę. Przykładem może być Przymiotnikowa Skala Nastroju UMACL (ang. UWIST Mood Adjective Check List). Goryńska (2005) dokonując polskiej adaptacji zdecydowała się m.in. oszacować stabilność poszczególnych wymiarów nastroju. Oczekiwała jednak, że korelacje pomiędzy pomiarami w odstępie jednego tygodnia będą istotne, choć niezbyt wysokie. Okazało się, iż współczynniki korelacji wahały się od 0,28 do 0,47, co w tym przypadku było zgodne z teorią, ponieważ nastrój, czyli stan, inaczej niż cecha, podlega względnie szybkim zmianom. Zastosowana metoda stabilności bezwzględnej miała w tym wypadku jednak więcej wspólnego z badaniem trafności teoretycznej niż rzetelności.

 

5.3.1.1. Stabilność czasowa a założenie o równości średnich

 

W większości testów psychologicznych przy pomiarze stabilności testu, zarówno bezwzględnej jak i względnej (por. rozdział 5.3.2), bierze się pod uwagę współczynnik korelacji, którego wysokie wartości interpretuje się jako wysoką stałość wyników testu w czasie. Należy podkreślić, że powyższa interpretacja jest prawdziwa jedynie, jeśli spełnione są założenia równoległości pomiarów testowych, szczególnie zaś założenie o równości średnich w obu pomiarach. Korelacja sama w sobie mówi jedynie o powiązaniu wyników w obu pomiarach, ich względnym uporządkowaniu, tzn. osoby, które miały wyższe wyniki w pierwszym pomiarze będą miały też wyższe wyniki w drugim pomiarze. Aby mówić o stałości wyników w czasie szczególnie istotne jest spełnienie założenia o równości średnich w obu pomiarach dla danej grupy osób. W praktyce założenie to często jest pomijane, co może prowadzić do poważnych błędów interpretacyjnych współczynnika stabilności. Zilustruje to poniższy przykład zawarty w tabeli 1. Skonstruowano dwa testy, A i B. Zbadano stabilność bezwzględną każdego z nich dla 5 osób. Okazało się, że współczynnik korelacji dla obu pomiarów testem A wyniósł 1, i podobnie korelacja dla obu pomiarów testem B również wyniosła 1. Interpretując jedynie współczynniki korelacji (bez sprawdzenia założeń o równoległości pomiarów) można by stwierdzić, że wyniki w teście A i wyniki w teście B są tak samo, idealnie stałe w czasie. Jednak biorąc pod uwagę średnie można zauważyć, że powyższa interpretacja jest słuszna jedynie w wypadku testu A, gdzie w pomiarze pierwszym (A1) i drugim (A2) średnie w istocie są równe. Dla pomiarów w teście B, choć korelacja również wynosi 1, to średnia w drugim pomiarze (B2) jest wyższa o dwie jednostki od tej w pierwszym (B1). Zatem, wyniki osób w teście B nie były stabilne w czasie, lecz nastąpiło systematyczne ich podwyższenie (może się tak zdarzyć np. przy badaniu stabilności testu inteligencji u dzieci).

 

Tabela 1. Wyniki dwukrotnego badania testem A (A1,A2) i testem B (B1,B2) grupy pięciu osób

Nr osoby

A1

A2

B1

B2

1

2

3

4

5

5

4

3

2

1

5

4

3

2

1

5

4

3

2

1

7

6

5

4

3

Średnia

3

3

3

5

Korelacja

rA1A2=1

rB1B2=1

    

              Podsumowując, interpretacja współczynnika stabilności testu, jako niezmienności wyników w czasie, jest uprawniona tylko, jeśli są spełnione założenia o równoległości testów, szczególnie o równości średnich w obu pomiarach.

Wiarygodność testu służy do badania rzetelności testu oraz wskazuje na stopień w jakim wynik testu jest zależny od chwilowych, przypadkowych zmian. Polega na dwukrotnym badaniu tych samych osób tym samym testem.

Stabilność bezwzględna służy do badania rzetelności testu oraz pokazuje w jakim stopniu wyniki testu są wrażliwe na przypadkowe zmiany związane z dłuższym upływem czasu. Polega na badaniu dwa razy tych samych osób tym samym testem z przerwą czasową między pomiarami.

 

5.3.2. Metoda wersji alternatywnych

 

W poprzednim paragrafie omówiono metody szacowania rzetelności za pomocą dwukrotnego badania tej samej grupy osób tym samym testem. Niniejsza część poświęcona jest metodom szacowania rzetelności za pomocą dwukrotnego badania tej samej grupy osób wersjami alternatywnymi testu. Można zauważyć spore podobieństwo między szacowaniem rzetelności metodą test-retest a metodą wersji alternatywnych. Jedyną różnicą między powyższymi dwiema metodami w zakresie procedury badania jest posłużenie się tym samym testem albo posłużenie się wersjami alternatywnymi testu.

Badanie rzetelności metodą wersji alternatywnych ma następujący przebieg. Po pierwsze należy skonstruować dwie wersje danego testu. Obie wersje powinny różnić się pod względem treści, tzn. składać się z innych treściowo pozycji, ale jednocześnie spełniać założenie równoległości (por. idea testów równoległych paragraf 5.3). Następnie należy przebadać tę samą grupę osób najpierw jedną, a potem drugą wersją danego testu.

Podobnie jak za pomocą metody test-retest, tak poprzez zastosowanie procedury testów alternatywnych można uzyskać dwa współczynniki rzetelności, w zależności od zastosowanej długości przerwy czasowej między pomiarem pierwszą i drugą wersją testu.

Współczynnik równoważności międzytestowej pod względem zastosowanej przerwy czasowej między pomiarami jest odpowiednikiem współczynnika wiarygodności w metodzie test-retest. Inaczej mówiąc współczynnik równoważności międzytestowej uzyskuje się korelując ze sobą wyniki z dwóch testów alternatywnych przeprowadzonych na tej samej grupie osób, przy czym między badaniem oboma testami nie ma przerwy czasowej. Po zakończeniu rozwiązywania pierwszej wersji osoby badane natychmiast przystępują do rozwiązywania drugiej wersji testu. Uzyskany w ten sposób współczynnik korelacji, najczęściej r Pearsona, traktuje się jako współczynnik równoważności międzytestowej.

Współczynnik stabilności względnej to korelacja między wynikami w dwóch testach alternatywnych uzyskanych przez tę samą grupę osób, ale pomiędzy badaniem testem pierwszym i testem drugim wprowadza się przerwę czasową. Długość tej przerwy powinna być dobrana w zależności od tego co mierzą testy alternatywne oraz od specyfiki grupy, dla której chcemy oszacować rzetelność testów. Jeśli testy przeznaczone są do pomiaru względnie stałych czasowo właściwości, jak np. cech temperamentu, to przerwa ta może być dłuższa, np. kilka miesięcy. Dłuższych przerw zazwyczaj nie stosuje się ze względu na potencjalne trudności badawcze – mogłoby być trudno dotrzeć do tych samych osób np. po upływie kilku lat. Jeśli istnieje podejrzenie, że badana właściwość psychiczna może szybko ulegać zmianom, to przerwa między oboma pomiarami powinna być krótsza. Krótkie przerwy czasowe będą również właściwsze w przypadku osób, u których badana właściwość może szybko ulec zmianie ze względów rozwojowych. Grupą taką z pewnością będą dzieci. Łatwo można wyobrazić sobie, że poziom wykonania np. testu inteligencji zmieniłby się znacznie gdyby przebadano dzieci w piątej klasie, a następnie te same dzieci po roku, w szóstej klasie. Zważywszy, że dodatkowo występują różnice w tempie rozwoju dzieci, to uzyskany współczynnik korelacji między pomiarami testami alternatywnymi byłby zniekształcony. Nie odzwierciedlałby zatem tego, jak dokładny jest pomiar tymi testami. Generalnie, problemy z ustaleniem przerwy czasowej między pomiarami podczas szacowania stabilności względnej są identyczne jak w wypadku stabilności bezwzględnej (por. rozdział 5.3.1)

Współczynnik równoważności międzytestowej służy do badania rzetelności testu oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi testu. Polega na dwukrotnym badaniu tych samych osób, po kolei dwiema wersjami testu.

Współczynnik stabilności względnej służy do badania rzetelności testu oraz wskazuje na stopień podobieństwa między wersjami alternatywnymi testu i na przypadkowe zmiany wyników związane z upływem czasu. Polega na zbadaniu tych samych osób pierwszą wersją testu a po upływie pewnego czasu drugą wersją testu.

 

5.3.3 Metoda połówkowa

 

W poprzednich paragrafach omówiono metody szacowania rzetelności na podstawie dwukrotnego pomiaru. Metoda połówkowa pozwala na oszacowanie rzetelności testu na podstawie jednokrotnego badania tej samej grupy osób jednym testem. Jest to jedna z pierwszych metod badania zgodności wewnętrznej, jakie wymyślono.

Technika ta opiera się na pomyśle wyodrębnienia dwóch testów równoległych w ramach tego samego testu, a następnie skorelowaniu ze sobą wyników uzyskanych w tych połówkach. Procedura badania polega na tym, że grupa osób wykonuje test, następnie test jest dzielony na dwie połówki, po czym koreluje się ze sobą zbiory wyników uzyskanych z pierwszej i drugiej połówki. Tak powstały współczynnik korelacji mówi o rzetelności jedynie połowy testu. Dlatego też należy skorzystać ze wzoru Spearmana-Browna, który pozwala oszacować rzetelność całego testu na podstawie rzetelności jego połowy:

              (5.1)

rtt - rzetelność całego testu

rpp...

Zgłoś jeśli naruszono regulamin