__statystyka_opisowa_ver_.doc

(204 KB) Pobierz
Statystyka opisowa

Wykład 2

 

 

 

 

 

Statystyka opisowa

 

 

Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej xi odpowiadających im liczebności ni. Rozkład empiryczny odzwierciedla strukturę badanej zbiorowości z punktu widzenia określonej cechy. Rozkłady empiryczne ustalane są na podstawie obserwacji statystycznych.

 

 

 

Rodzaje rozkładów empirycznych

 

 

 

 

 

 

 

 

 

 

 

 

 

Podstawowe typy rozkładów empirycznych (dla cechy ciągłej)

 

 

 



 

 

Opisowe charakterystyki (parametry) rozkładów

 

Podstawowa analiza danych powinna doprowadzić do zwięzłego przedstawienia ogólnej charakterystyki istotnych właściwości badanej zbiorowości. Liczby dające taki sumaryczny opis zbiorowości nazywamy parametrami (charakterystykami opisowymi) rozkładu. Parametry rozkładu dzielimy na cztery główne kategorie:

 

1.      Miary tendencji centralnej (miary wartości średniej, miary położenia itd.)

2.      Miary rozproszenia (dyspersji, zmienności, zróżnicowania itd.) służące do badania stopnia zróżnicowania wartości zmiennej.

3.      Miary asymetrii (skośności) służące do badania kierunku zróżnicowania wartości zmiennej.

4.      Miary koncentracji (skupienia) służące do badania stopnia nierównomierności rozkładu ogólnej sumy wartości zmiennej pomiędzy poszczególne jednostki zbiorowości.

 

Główne typy porównań statystycznych:

 

1.      porównanie kilku różnych zbiorowości pod względem tej samej cechy

2.      porównanie dotyczące jednej zbiorowości pod względem kilku różnych cech

 

 
Miary położenia

 

 

1.      Średnia arytmetyczna:

a) dla szeregu szczegółowego (wyliczającego)

 













xi – zmierzone wartości badanej cechy

N – liczebność badanej cechy

 

              b) dla szeregu rozdzielczego punktowego



 

ni (i=1,2...k)  liczebność jednostek odpowiadających poszczególnym wariantom (klasom) zmiennej.

 

              c) dla szeregu rozdzielczego przedziałowego

 



lub równoważnie:



gdzie:







 

wi – procentowe wskaźniki struktury (wagi)



d) Obliczanie średniej ogólnej na podstawie średniej grupowej.







ni –liczebność i - tej grupy, N – suma liczebności grup, xi- średnia arytmetyczna i-tej grupy.

 

 

 

 

 

 

Pewne własności średniej arytmetycznej:

 

1.      średnia arytmetyczna jest wypadkową wszystkich wartości zmiennej i spełnia nierówność:

 

 

2.    

suma odchyleń poszczególnych wartości od średniej arytmetycznej jest równa zeru np. dla szeregu  wyliczającego:

 

3.    

na poziom średniej arytmetycznej silny wpływ wywierają skrajne wartości (średnia arytmetyczna jest „czuła” na wartości błędne)

 

 

Średnia harmoniczna – odwrotność średniej arytmetycznej z odwrotności wartości zmiennych.

 

a)      dla szeregu wyliczającego (oznaczenia jak powyżej):



b)     dla szeregu rozdzielczego punktowego:

 



c)      dla szeregu rozdzielczego przedziałowego:

 



Średnią harmoniczną stosujemy, gdy wartości zmiennych podawane są w jednostkach względnych, wagi zaś w jednostkach liczników tych jednostek względnych (np. odpowiednio zmienna: ilość sosen w lesie w sztukach/ha oraz  waga: w sztukach)

 

Przykład:

Ilość sosen w badanych lasach wynosiła 400 i 600 sosen/ha. Jaka była przeciętna ilość tych drzew w obydwu lasach?

H = 480 sosen/ha – wynik prawidłowy, obliczony ze wzoru na średnia harmoniczną.

Xśr = 500 sosen/ha– wynik nieprawidłowy, obliczony ze wzoru na średnią arytmetyczną.

 

Średnia geometryczna(oznaczenia jak powyżej)

 





lub

 

 

 

N=n1+n2+...+nk

 

Średnia geometryczna znajduje zastosowanie przy badaniu średniego tempa zmian w czasie.

 

Dominanta (modalna, wartość najczęstsza)

 

Dominantą nazywamy taką wartość zmiennej, która występuje najczęściej.

Dominantę można ustalać wyłącznie dla rozkładów jednomodalnych.

W szeregach rozdzielczych przedziałowych dominantę wyznaczamy na podstawie wzoru:

 

 



xD – dolna granica w której znajduje się dominanta.

nD – liczebność przedziału dominanty.

nD-1 , nD+1 – liczebności przedziału odpowiednio poprzedzającego i następującego po przedziale w którym znajduje się dominanta.

 

 

 

 

Metoda graficzna wyznaczania dominanty.

 

Kwantyle – wartości cechy badanej w zbiorowości (przedstawionej w postaci szeregu statystycznego), które dzielą ją na określone części pod względem liczby jednostek. Części te pozostają do siebie w określonych proporcjach. Do najczęściej stosowanych kwantyli należą mediana (podział na połowę), kwartyle (podział na 4 części), decyle (podział na 10 części) oraz percentyle (podział na 100 części).

Mediana – wartość cechy środkowej w uporządkowanym szeregu statystycznym.

 

a)     dla szeregu wyliczającego

 

b)     w przypadku szeregu

rozdzielczego punktowego obliczenie mediany polega na wskazaniu jednostki środkowej i odczytanie wartości cechy odpowiadającej tej jednostce. Można wyznaczyć też medianę z histogramu liczebności skumulowanej (będzie wyjaśnione poniżej).

 

c)     szereg rozdzielczy przedziałowy – medianę wyznaczamy ze wzoru:

 



gdzie:

xMe dolna granica przedziału, w którym znajduje się mediana.

iMe – rozpiętość przedziału w którym znajduje się mediana.

nMe – liczebność przedziału w którym znajduje się mediana.

k- liczba klas, itd.

 

Kwartyle:

 

Kwartyl pierwszy – dzieli uporządkowaną zbiorowość na dwie części w ten sposób, że 25% jednostek ma wartości niższe a 75% wyższe od kwartyla pierwszego.

 

Kwartyl trzeci – dzieli uporządkowaną zbiorowość na dwie części w ten sposób, że 75% jednostek ma wartości niższe a 25% wyższe od kwartyla trzeciego.

 

Kwartyle wyznaczamy podobnie jak medianę –metodą graficzną lub rachunkową.

Przykładowo w przypadku szeregu rozdzielczego przedziałowego kwartyle wyznaczamy ze wzorów:



 

oraz



Jak wspomniano powyżej istnieją jeszcze inne kwantyle. Ogólnie kwantyl rzędu p dzieli uporządkowaną zbiorowość na dwie części w ten sposób, że p% jednostek ma wartości niższe, a (100-p% )wyższe od procentyla rzędu p.

 

Wyznaczanie kwartyli na podstawie wykresu liczebności skumulowanej

 

Miary rozproszenia

 

Empiryczny zakres zmienności – różnica pomiędzy największą i najmniejszą wartością w badanej zbiorowości:

 



Zauważmy, że zakres zmienności łatwo wyznaczyć jest jedynie na podstawie szeregu wyliczającego. Zakres zmienności dostarcza bardzo mało informacji!

 

Wariancja – średnia arytmetyczna z kwadratów odchyleń poszczególnych wartości cechy od średniej arytmetycznej całej zbiorowości. Wyrażenia na wariancję są następujące:

 

a)      szereg wyliczający

 

b)    

szereg rozdzielczy punktowy

 



c)      szereg rozdzielczy przedziałowy



 

Własności wariancji:

 

1.



2.Równość wariancyjna:

 



Wariancja ogólna jest sumą wariancji wewnątrzgrupowej oraz wariancji międzygrupowej

 

3.Wariancja jest wielkością nieujemną. Mianem wariancji jest kwadrat jednostki fizycznej.

 

Odchylenie standardowe s – pierwiastek kwadratowy z wariancji.

Odchylenie standardowe określa o ile wszystkie jednostki różnią się średnio od średniej arytmetycznej badanej zmiennej.

Miano odchylenia standardowego jest zgodne z mianem badanej cechy.

 



Typowy obszar zmienności:

 

 

 

W obszarze tym mieści się około 2/3 danych.

 

 

Współczynnik zmienności:

 



Inne miary zróżnicowania:

 

1.      Odchylenie przeciętne (dla szeregu wyliczającego)

 



 

 

 

2.      Odchylenie ćwiartkowe

 



 

 

3.      Pozycyjny typowy zakres zmienności

 

 



4. Inne współczynniki zmienności :

 

 





 



 

Miary asymetrii

 

Bardzo często interesuje nas czy większość jednostek znajduje się powyżej czy poniżej przeciętnego poziomu badanej cechy.

 

 

 

 

 

 

Najłatwiej określić asymetrię rozkładu porównując średnią, medianę i dominantę:

 

-jeżeli



to występuje asymetria prawostronna

...

Zgłoś jeśli naruszono regulamin