Pytania i odpowiedzi.doc

(6305 KB) Pobierz
Pytania i odpowiedzi

Pytania i odpowiedzi

 

1ad 1) [wzór jest ok., komentarz zły]. jest to funkcja po prostu kumulująca prawdopodobieństwo wraz ze wzrostem wartości zmiennej losowej X, czyli argumentów tej funkcji. Z definicji wynika, że funkcja może przyjmować wartości należące do przedziału od 0 do 1.

 

2ad 2) dobrze. Jeśli chodzi o własności:

* lepiej użyć symbolu C zamiast małe x, gdyż x kojarzy się ze zmienną losową;

*wyniki standardowe stosuje się w celu porównania

a) wyników otrzymywanych przy pomocy różnych narzędzi (np. różnych testów psychologicznych mierzących to samo) w różnych populacjach, np. test inteligencji A w Polsce i test inteligencji  B w Czechach

b) porównywania osób należących do różnych populacji i u których ta sama cecha mierzona jest różnymi narzędziami

c) porównywania wyniku osoby z typowym (przeciętnym) wynikiem w populacji

d) porównania wyników otrzymywanych przy pomocy różnych procedur u tego samego badanego.

 

3 ad 3) odpowiedź w xero to jest jakiś bełkot (masło maślane), ale i pytanie nie jest za mądre.

Blalock (s.158) pisze: „...im większa jest liczebność losowanej próby, tym mniejsze jest odchylenie std. rozkładu z próby, tzn. tym mniejszy będzie rozrzut średnich z prób. rozpatrując średnie z prób jako oszacowania średniej z populacji, możemy powiedzieć, że pewna część błędów popełnianych w procesie estymacji jest spowodowana fluktuacjami w próbach, Odchylenie standardowe rozkładu statystyki z próby nazywać będziemy błędem stanardowym. W tym przypadku błedem standardowym średniej oznaczonym s jest s/Ön.”

Błąd standardowy jest liczba dołaczaną zazwyczaj do wartości oszacowania (np. średniej) po to, aby dać pewne pojęcie o wielkości możliwego błędu tego oszacowania.

 

4 ad 4) ok., s = s/Ön.

 

5 ad 5) P ( m £ X £ m + 2 s) = F(m + 2 s) – F (m) = F [(m+2s - m)/s] - F [(m - m)/s] = F(2) - F(0) = {z tablic} 0,9772 – 0,5 = 0,4772, ok. Interpretacja: dla zmienne o rozkładzie normalnym prawie 48% elementów populacji (np. osób) ma swoje wyniki od średniej do dwóch odch, std. pow. średniej.

 

6 ad 6) P( - (t a,n-1 * s/Ön) £ m £ + (t a,n-1 * s/Ön)) = 1-a 

niech a=0,05:

P( 40- (t 0,05, 224 * 5/Ö225) £ m £ 40- (t 0,05, 224 * 5/Ö225)) = 1-0,05;

ponieważ n=225 to duża próba więc  t0,05, 224 » z0,05 =1,96.

P( 40- (1,96* 5/Ö225) £ m £ 40- (1,96 * 5/Ö225)) = 1- 0,05

              P( 40- (0,6533) £ m £ 40- (0,6533)) = 0,95

              P( 39,3467 £ m £ 40,6533 ) = 0,95 .

Z prawdopodobieństwem 0,95 przedział <39,3467;40,6533> zawiera nieznaną przeciętną wartość w populacji.

 

7ad 7) Rozkład t-Studenta pojawia się w rozważaniach na temat odchylenia standardowego średnich obliczanych na podstawie małych prób pochodzących z rozkładu normalnego i opiera się na statystyce: t= [(-m)/s]*Ön. Jego kształt jest bardziej spłaszczony niż rozkładu normalnego, tym bardziej, im mniejsze są pobierane próby. Kształt tego rozkładu zależy więc od liczności tych prób, a dokładniej – od liczby stopni swobody (n-1) odchylenia standardowego pojawiającego się w powyższym wzorze.

z wykładów „Ponieważ rozkład prawdopodobieństwa t studenta ta krzywa przy n dążącym do nieskończoności zbiega do rozkładu normalnego (i go nie przekracza!). Zatem jest jeden uniwersalny wzór dla dużych i dla małych próbek. [ok.] Zmienne x oraz z mają rozkład normalny. Zmienna t ma rozkład prawdopodobieństwa t studenta!  Na egzaminie: „Narysuj rozkład prawdopodobieństwa t studenta.” No to rysujemy krzywe dla dużej i dla małej liczby stopni swobody.

Muszą się przecinać! „Podaj kryterium do którego są zbieżne.” „Podaj postać statystyki t studenta.” Wzór! Nazwa osi! „Jaką interpretację ma t studenta?” odp. Jest to wynik wystandaryzowany średniej próbkowej (dokładniej: rozkład t-Stud. o (n-1)  st. swobody jest wynikiem wystandaryzowanym średnich z prób n-elementowych..

 

8ad 8)  W naukach społecznych prowadzi się rozumowanie indukcyjne w rodzaju: jeśli A (hipoteza) jest prawdziwe, to B (skutek, wynik badania) prawdopodobnie jest również prawdziwe. Obserwujemy B, skutek badania, który może być niekoniecznie wynikiem zadziałania hipotezy A. W tej sytuacji, jeśli zawsze byśmy odrzucali A gdy B będzie fałszywe, popełnialibyśmy błąd odrzucania hipotezy prawdziwej (jest to błąd I rodzaju, natury statystycznej, a). Ponieważ nie chcemy tego robić, w badaniach statystycznych z góry zakładamy dopuszczalną częstość takich pomyłek, zwykle a=0,05. Inaczej mówiąc, decydujemy z góry, że odrzucimy założenie A, jeśli zdarzenie B nie zaszło.

Z kolei błąd II rodzaju, b, jest natury logicznej, polega na przyjęciu hipotezy fałszywej i jest groźniejszy od błędu I rodzaju, gdyż powoduje wprowadzanie błędnych twierdzeń do nauki. Jak zależą – ok.

 

9 ad 9) Obszarem krytycznym testu nazywamy zbiór możliwych wyników, ale mało prawdopodobnych, których zajście zmusi badacza do odrzucenia założeń przyjmowanych w hipotezie zerowej. Suma prawdopodobieństwa z wnętrza obszaru krytycznego jest równa prawdopodobieństwu popełnienia błędu I rodzaju a, czyli prawdopodobieństwu odrzucenia tych założeń wtedy, kiedy są one prawdziwe. Zazwyczaj w badaniach statystycznych z góry zakładamy poziom a, a przystępując do rozwiązywania zadania przyjmujemy założenia odnośnie rozkładu (np. że jest to t-Studenta z 24 st. swobody). Wtedy z tablic odczytujemy tzw. wartości krytyczne testu, oddzielające obszar krytyczny od obszaru tych wartości statystyki, które nie pozwalają na odrzucenie H0.

 

10 ad10) Test statystyczny jest to reguła postępowania, która każdym możliwym wynikom badania na próbie statystycznej (będącej jego przedmiotem) przypisuje decyzję przyjęcia lub odrzucenia hipotezy. Jest to reguła, która pozwala rozstrzygać, które wyniki pozwalają uznać sprawdzaną hipotezę za prawdziwą, a które – za fałszywą.

 

11 ad 11) W pierwszym etapie konstruowania testu statystycznego formułuje się hipotezę, która podlega weryfikacji, jest to tzw. hipoteza zerowa. Hipotezę zerową weryfikuje się testem statystycznym dwustronnym lub jednostronnym. Hipotezę zerową można przyjąć lub odrzucić z określonym p.-em. Należy formułować hipotezy w taki sposób, aby było wiadomo, czego można oczekiwać, gdy są one prawdziwe. Ponieważ stosuje się rozumowanie nie wprost, zakładamy coś przeciwnego do tego co chcemy udowodnić. nazwa pochodzi stąd, że chcąc wykazać różnicę, zakładamy najpierw jej brak; stawiamy hipotezę tę, którą zwykle chcemy odrzucić. To jest hipoteza zerowa

 

12 ad12). Schemat wnioskowania statystycznego:

a) Postawienie problemu, np. czy kobiety i mężczyźni różnią się między sobą inteligencją, wzrostem itp.; np. ogólniej:

*) czy uzyskana próbka wyników jest rzeczywiście reprezentatywna dla pewnej okreslonej populacji *) czy otrzymana różnica między średnimi różnych próbek jest dostatecznie duża, aby móc wyciągnąć wniosek, że próbki tesą prawdopodobnie pobrane z różnych populacji *) czy zróżnicowanie wyników między grupami, które podano różnym oddziaływaniom eksperymentalnym, jest większe niż rozrzut wyników w obrębie każdej z tych grup.. Dobór wskaźników do problemu, np. testu IQ dla inteligencji lub pomiaru wzrostu przypomocy wagi lekarskiej.

b) Sprawdzenie założeń stosowalności testu odnośnie: skali pomiarowej , modelu i założeń dodatkowych (np. takich jak czy skala pomiarowa jest mierzalna, czy mamy do czynienia z modelem np. prób niezależnych czy rozkład jest normalny, czy wariancje są homogeniczne – w t.Stud dla prób nzal.).

c) Postawienie hipotez statystycznych zerowej i alternatywnej.

d) Określenie poziomu istotności i wyznaczenie obszaru krytycznego, na podstawie wartości krytycznej odczytanej z tablic.

e) Określenie rozkładu statystyki z próby

f) Obliczenie empirycznej statystyki testu.

g) Decyzja na podstawie porównania statystyki empirycznej z wartością krytyczną, czyli odrzucenie lub nie odrzucenie hipotezy zerowej.

 

13 ad13) Z jaką pewnością przyjmuje się hipotezę zerową. Podaj definicję hipotez rozważanych w trakcie wnioskowania.

Hipotezę zerową przyjmuje się z prawdopodobieństwem 1-b, ponieważ b to błąd przyjęcia hipotezy zerowej wtedy kiedy jest ona fałszywa. W teście statystycznym nie odrzuca się jej z prawdopodobieństwem (1–a), wtedy gdy jest prawdziwa ; We wnioskowaniu statystycznym (czyli probabilistycznym, czyli tym, na które narzucamy stopień pomyłek równy a) nigdy nie przyjmuje się hipotez lecz co najwyżej się ich nie odrzuca. Jeśli nie odrzucimy tej hipotezy (np. zakładając, że a=0,05), to możemy ją przyjąć, przy czym moc orzekania tego jest równa 1-b. W trakcie wnioskowania rozważamy hipotezy:

*zerową np. przy wnioskowaniu o średniej ma postać H1: m=40

i *alternatywną (różnościową bądź kierunkową).

Hipoteza różnościowa: (nieznany parametr w badanej populacji)  =/= (parametr oczekiwany w populacji) np. przy wnioskowaniu o średniej ma postać H1: m=/=40.

Hipoteza kierunkowa (nieznany parametr w badanej populacji) (< lub >) (parametr oczekiwany w populacji) np. przy wnioskowaniu o średniej ma postać H1: m>40.

 

14 ad14) Skale pomiarowe – o.k.

* Skala stosunkowa (ilorazowa) — stanowi najwyzszy poziom pomiaru. Skala ta posmada wszelkie właściwości niżej wymienionych skal, I tę właściwość, ze jej początkiem jest zero bezwzględne.

*) Skala przedziałowa - zwana także interwałową posiada wszystkie właściwości skal nominalnych i porządkowych, a ponadto i tę iż ma równe jednostki Oznacza to, że jednostkowe różnice wyników reprezentują równej

wielkości różnice tej cechy, którą mierzymy Przedziały są równe na całej skali.

*) Skala porządkowa — pomiar na tej skali me tylko odróżnia daną osobę od pozostałych, lecz także mówi nam, czy dana osoba posiada mierzoną cechę w większym „ lub mniejszym stopniu.

*) Skala nominalna - jest najniższym poziomem pomiaru.

Liczby stosuje się tu tytko dla odróżnienia jednej osoby lub grupy od innej.Liczby te me reprezentują ilości czegokolwiek. Istotą pomiaru na skali nominalnej jest klasyfikacja jakościowa.

 

15 ad15) „Rozkład z próby statystyki” , a dokładniej – rozkład statystyki z prób – oznacza rozkład prawdopodobieństwa statystyk, czyli pewnych funkcji na pomiarach,  policzonych w różnych próbach. Bywa, że w swoich rozkładach statystyki te mają wartości oczekiwane w postaci parametrów  rozkładów pomiarów tworzących te próby. Na przykład rozkład średniej z próby (czyli rozkład funkcji postaci 1/n * suma pomiarów w n-elementowej próbie) jest normalny, podobnie ja rozkład pomiarów tworzących tę próbę, a jego parametr, wartość oczekiwana m jest taka sama, jak w.oczek. rozkładu zmiennej X, dzięki czemu wykorzystując statystykę średniej możemy szacować tę oczekiwaną wartość. Inna jest w tym rozkładzie wariancja s2średniej niż zmiennej X s2X, a mianowicie s2X /n.

 

16 ad16)  Ile stopni swobody ma wariancja i dlaczego.

Stopniami swobody pewnej statystyki nazywamy liczbę pomiarów w niezależny sposób wpływających na tę statystykę. Wariancja ma n-1 stopnia swobody ponieważ spośród n pomiarów uznajemy, że niezależnie wpływa na nią n-1 pomiarów, ponieważ od każdego z n pomiarów odejmujemy średnią, w której wystąpiła każdy z pomiarów. A więc w efekcie od każdego pomiaru odejmujemy między innymi kawałek jego samego, co w rezultacie daje utratę jednego stopnia swobody łącznie. Podobnie, gdy ustalimy wartość s2 na pewnym poziomie, to tylko n-1 spośród nich może się swobodnie zmieniać. Wariancja ma więc n-1 stopni swobody.

 

17 ad 17) Podaj definicję kwartyli. Jaki jest związek mediany z kwartylami.

Kwartyle są to wartości zmiennej X takie, które wyznaczają na całym zasięgu zmiennej X cztery przedziały równoliczne (lub o równej częstości bądź prawdopodobieństwie). Jest ich więc trzy: Q1 Q2 i Q3. Na przykład pierwszy przedział, w którym jest 25% pomiarów (np. 25% ogólnej liczby osób), to (-µ;Q1>, zaś drugi taki przedział to (Q1;Q2>. Jak widać, między -µ a Q2 jest 50% osób. A zatem mediana to 2 kwartyl, ponieważ z definicji mediana dzieli całą zmienną na dwa przedziały o równej liczebności (każdy po 50%).

 

18ad18) Narysuj wystandaryzowany rozkład normalny i wypisz jego własności.

Rysunek:

Własności:

-rozkład na całej skali liczb rzeczywistych od -µ do +µ

-symetryczny

- m=0, s.kw.=1

- punkty przegięcia w odległości -s i +s - punkty zmiany tempa przyrostu prawdopodobieństwa;

- na odcinku (-s;s) 64% przypadków (do punktów przegięcia), (-2s;2s) 95,5% przypadków, (-3s;3s) 99,7% przypadków w każdym rozkładzie normalnym, w wystandaryzowanym odpowiednio na przedziałach (-1;1) , (-2;2) (-3;3).

- 95% populacji o rozkładzie normalnym  ma wyniki w przedziale (-1,96s;1,96s).

 

19 ad 19) Co znaczy termin wartość krytyczna testu Statystycznego.

Wartość krytyczna testu statystycznego jest to taka wartość zmiennej X, która rozdziela przedział ufności (przedział, w którym są wartości statystyk, które otrzymawszy nie odrzucamy hipotezy zerowej; w.k. należy do niego) od obszaru krytycznego (czyli przedziału dwustronnego bądź jednostronnego w danym rozkładzie zmiennej, takiego, że jeśli otrzymamy wartości do niego należące, to odrzucimy H0). Wartość krytyczną wyznaczamy z tablic danego rozkładu na podstawie z góry założonego prawdopodobieństwa błędu I rodzaju, czyli p-stwa odrzucenia hipotezy zerowej prawdziwej, a.

 

20 ad 20) Jak jest definicja statystyki t-studenta i przy jakich założeniach można ją stosować.

Jest to statystyka wymyślona przez W.Gosseta, który zauważył zniekształcenie (spłaszczanie się) rozkładów oszacowań średniej obliczanej na podstawie n-elementowych prób losowych. W sytuacji gdy nie znał prawdziwego s2 i szacował je na podstawie s2 otrzymanego w próbie pomiarów, zniekształcenie to powodowało oddalanie się granic przedziałów ufności.

*założenia:

- zmienna zmusi być przynajmniej ze skali przedziałowej, mierzalna, musi mieć rozkład normalny;

- rozkład badanej statystyki musi być t-Studenta;

*t-studenta stosujemy: w szacowaniu wartości średniej w populacji, w weryfikacji hipotez w modelu prób niezależnych i w modelu prób zależnych.

Gdy t>ta => hipotezę zerową odrzucamy na rzecz alternatywnej z prawdopodobieństwem 1-a,

Gdy t£ta => hipotezę zerową nie odrzucamy, nie ma podstaw do odrzucenia hipotezyzerowej.

 

21 ad 21. Jaką interpretację mają wartości znanych statystyk t-Studenta?

To pytanie to jest jakiś bełkot; znanych komu? Być może trzeba pochwalić się, że rozkład t-Stud. jest wykorzystywany:

* do szacowania różnicy między średnimi z dwóch populacji (model prób niezależnych), interpretujemy t wtedy jako wystandaryzowaną różnicę między tymi średnimi,

* do szacowania zmiany na pomiarach tej samej zmiennej pod wpływem czegoś (np. eksperymentu albo z upływem czasu)  - wtedy jest to model prób zależnych t interpretujemy jako średnią wystandaryzowaną zmianę,

* do estymowania wartości średniej w populacji na podstawie wyników małych (n<130) prób , wtedy możemy to interpretować jako miarę dokładności estymacji (im większe wartości t, tym pomiar bardziej niedokładny),

* do testowania istotności współczynnika r-Pearsona – czy jest istotna zależność liniowa.

 

22 ad 22. Narysuj rozkład statystyki f­ Fishera i podaj jej definicje.

F jest statystyką powstałą przez podzielenie wariancji dwóch prób niezależnych , pochodzących z populacji, w których zmienna X ma rozkład normalny. W sytuacji, gdy próby pobierane są z populacji o wariancjach homogenicznych s21=s22, to wartość oczekiwana statystyki F  wynosi m(F)=1. Rozkład F charakteryzuje prawdopodobieństwo otrzymania różnych wartości ilorazów wariancji z dwóch prób o liczebności w liczniku i mianowniku n1 i n2 oraz stopniach swobody odpowiednio df1=n1-1 df2=n2-1.

Służy on do badania homogeniczności wariancji. Aby go zastosować, musimy mieć dwie próby losowe, niezależne, a każda z nich musi być z populacji, w której badana zmienna ma rozkład normalny. Jeśli nie ma rozkładu normalnego, statystyka F jest scentrowana, odkształca się i nawet jeśli wariancje są homogeniczne, to rozkład F przesuwa się w prawo czyli mF>1.

Test ten stosujemy w modelu prób niezależnych dzieląc wariancję większą przez mniejszą, lub w analizie wariancji sprawdzając działanie czynnika,  dzieląc wariancję między grupową przez wariancję wewnątrzgrupową.

F>Fa; df1;df2 =>Ho odrzucamy.

 

23 ad 23. Postaw hipotezy stosowane przy weryfikowaniu homogeniczności wariancji dwu populacji, czy mogą mieć postać alternatywną,

Ho : s12 = s22...

Zgłoś jeśli naruszono regulamin