WSAD(1).pdf

(346 KB) Pobierz
110747102 UNPDF
OpracowanezagadnieniazeWst¦pudoStatystycznejAnalizyDanych
napodstawiewykładuprowadzonegoprzezdrahab.Oleksandra
Zaihraieva
MariuszStrzelecki(szczeles@mat.uni.torun.pl)
MichałTydryszewski(mictyd@mat.uni.torun.pl)
ChristophKretschkevonHochenstein(welo@mat.uni.torun.pl)
6czerwca2009
1 Typy zmiennych w analizie danych. Rozkład Cz¦sto±ci. Graficzne
przedstawienie danych.
1.1 Typy (poziomy zmiennych):
nominalny - Zmienne przyjmuj¡ warto±ci (etykiety), dla których nie istnieje wynikaj¡ce z natury danego
zjawiska uporz¡dkowanie. Nawet je±li warto±ci zmiennej nominalnej s¡ wyra»ane liczbowo, to liczby te s¡
tylko umowymi identyfikatorami. Nie mo»na zatem wykonywa¢ na nich »adnych działa« arytmetycznych,
ani ich porównywa¢.
Przykłady zmiennych nominalnych: płe¢, powiat zamieszkania
Dozwolone operacje statystyczne: zliczanie, moda (najcz¦±ciej spotykana warto±¢), obliczanie frakcji (pro-
cent cało±ci)
porz¡dkowy - zmienne przyjmuj¡ warto±ci, dla których dane jest uporz¡dkowanie, jednak nie da si¦ w
sensowny sposób okre±li¢ ró»nicy oraz ilorazu mi¦dzy dwoma warto±ciami.
Przykłady zmiennych porz¡dkowych: wykształcenie, stopie« zaufania do prezydenta
Dozwolone operacje statystyczne: porównywanie warto±ci, zliczanie, obliczanie frakcji, moda, mediana,
centyle, minimum, maksimum
ilo±ciowy - s¡ to wła±ciwo±ci cechy, któr¡ mo»na zmierzy¢, zwa»y¢, przeliczy¢ itp.
Przykłady zmiennych ilo±ciowych: wiek, waga, pensja
Dozwolone operacje statystyczne: porównywanie warto±ci, zliczanie, obliczanie frakcji, moda, mediana,
centyle, minimum, maksimum, ±rednia arytmetyczna, wariancja, odchylenie standardowe,
1.2 Rozkład Cz¦sto±ci:
Rozkładem cz¦sto±ci jest przyporz¡dkowanie kolejnym warto±ciom zmiennej ( x i ) odpowiadaj¡cych im liczeb-
no±ci ( n i ). Rozkład odzwierciedla struktur¦ badanej zbiorowo±ci z punktu widzenia okre±lonej cechy (pokazuje
1
jakie warto±ci przyjmuje zmienna i jak cz¦sto).
Czasem wygodnie jest przedstawi¢ rozkład cz¦sto±ci dokonuj¡c grupowania obserwacji (podział na klasy). Warto-
±ci x nale»y wówczas pogrupowa¢ w przedziały wykluczaj¡ce si¦ wzajemnie i pokrywaj¡ce cały zbiór zmienno±ci
x , a ka»demu przedziałowi przyporz¡dkowa¢ cz¦sto±¢ wzgl¦dn¡, z jak¡ warto±ci zmiennej x pojawiaj¡ si¦ w
danym przedziale.
Ogólnie rzecz bior¡c, rozkładem cz¦sto±ci jest ka»de uporz¡dkowanie danych, które pokazuje liczebno±¢ ró»-
nych warto±ci zmiennej lub liczebno±ci warto±ci nale»¡cych do dowolnie okre±lonych grup zmiennej, zwanych
przedziałami klasowymi.
1.3 Graficzne przedstawianie danych:
Wykres jest to graficzne przedstawienie zbioru danych liczbowych, b¡d¹ pewnego aspektu tego zboiru. Wy-
kresy umo»liwiaj¡ nam spójne my±lenie w kategoriach wzrokowych o problemach zwi¡zanymi z damymi. Zbiory
danych cz¦sto s¡ bardzo zło»one. Celem wykresów jest ich uproszczenie. Stosuje si¦ je nie tylko przy przedsta-
wianiu zbiorów konkretnych danych, lecz tak»e jako wzrokowe modele pomocne w my±leniu, tworzeniu poj¦¢, i
rozwi¡zywaniu problemów statystycznych.
Histogram - to wykres w którym liczebno±ci wyst¦powania badanej cechy przedstawione s¡ w postaci
słupków (prostok¡tów). Prostok¡ty te umieszone s¡ na osi współrz¦dnych, wyznaczone s¡ z jednej strony
przez przedziały klasowe, warto±ci cechy (podstawa słupka), z drugiej za± przez liczebno±¢ elementów
wpadaj¡cych do okre±lonego przedziału klasowego (wysoko±¢ słupka).
Wielobok liczebno±ci - ró»ni si¦ od histogramu tym, »e tamten zakłada, i» wszystkie przypadki w obr¦bie
przedziału klasowego rozkładaj¡ si¦ równomiernie. W wieloboku liczebno±ci natomiast przyjmujemy, »e
wszystkie przypadki w ka»dym przedziale skupiaj¡ si¦ w jego ±rodku. Zamiast rysowa¢ poziom¡ lini¦
równ¡ całkowitej długo±ci przedziału stawiamy kropk¦ nad ±rodkiem ka»dego przedziału na wysoko±ci
odpowiadaj¡cej liczebno±ci. Przyj¦te jest pozostawienie po jednym dodatkowym przedziale na obu ko«cach
osi poziomej, a tak»e ł¡czenie kropek s¡siednich przedziałów.
Wielobok liczebno±ci skumulowanych - od wieloboku liczebno±ci odró»niaj¡ go dwie cechy: Po pierw-
sze zamiast stawiania kropek odpowiadaj¡cych liczebno±ciom surowym stawiamy kropki odpowiadaj¡ce
liczebno±ciom skumulowanym. Po drugie, zamiast stawiania kropek nad ±rodkiem ka»dego przedziału,
stawiamy kropki nad dokładn¡ granic¡ przedziału
2 Miary tendencji centralnej (poło»enia).
Definicja. Miara rozkładu jest to liczbowa charakterystyka rozkładu cechy, dostarczaj¡ca informacji na temat
wła±ciwo±ci tego rozkładu. Tak¡ charakterystyk¦ okre±la si¦ w zale»no±ci od przedmiotu badania statystycznego
jako:
parametr - je±li badane s¡ dane z pełnej populacji
statystyka - je±li przedmiotem badania s¡ dane z próby losowej
2
Definicja. Miar¡ tendencji centralnej rozkładu nazywamy miar¦ rozkładu, która okre±la poło»enie warto±ci cen-
tralnych rozkładu (warto±ci typowych, ±rednich). Miary tendencji centralnej zaliczamy do miar poło»enia.
Definicja. Miar¡ poło»enia rozkładu nazywamy miar¦ rozkładu, która okre±la relacj¦ mi¦dzy dwoma identycz-
nymi rozkładami, ale przesuni¦tymi wzgl¦dem osi odci¦tych układu współrz¦dnych.
Przejd¹my tymczasem do omówienia najwazniejszych miar tendencji centralnej. S¡ to:
2.1 Mediana
Median¡ lub warto±ci¡ ±rodkow¡ , któr¡ oznaczamy m e - próbki x 1 ,...,x n nazywamy ±rodkow¡ liczb¦ w upo-
rz¡dkowanej niemalej¡co próbce
x (1) ¬ x (2) ¬ ... ¬ x ( n ) ,
gdzie n jest liczb¡ nieparzyst¡, albo ±redni¡ arytmetyczn¡ dwóch ±rodkowych liczb, gdy n jest liczb¡ parzyst¡,
tzn.
<
x ( n +1) / 2 ,
gdy n nieparzyste
m e =
:
2 ( x ( n/ 2) + x ( n/ 2+1) ) , gdy n parzyste
2.2 Moda
Warto±ci¡ modaln¡ (mod¡, dominant¡) m 0 próbki x 1 ,...,x n o powtarzaj¡cych si¦ warto±ciach nazywamy naj-
cz¦±ciej powtarzaj¡c¡ si¦ warto±¢ (o ile istnieje!), nie b¦d¡c¡ x min ani te» x max .
2.3 rednia arytmetyczna
redni¡ arytmetyczn¡ liczb x 1 ,...,x n nazywamy liczb¦
x =
1
n
P
x i .
i =1
Je»eli w próbce wynik pomiaru x i wyst¡pił n i razy, i = 1 ,...,k , gdzie
P
n i = n , to ±redni¡ arytmetyczn¡ oblicza
i =1
si¦ według równowa»nego wzoru:
x =
1
n
P
x i n i .
i =1
rednia ta bywa równie» nazywana ±redni¡ arytmetyczn¡ wa»on¡ . Liczno±ci n i pełni¡ tu rol¦ tzw. wag .
2.4 rednia uci¦ta
redni¡ uci¦t¡ nazywamy ±redni¡ arytmetyczn¡ liczon¡ bez k warto±ci skrajnych:
x ( k +1) + ... + x ( n k )
n 2 k
3
1
3 Miary rozproszenia, asymetrii, koncentracji.
3.1 Miary rozproszenia.
Miar¡ rozproszenia (zmienno±ci, dyspresji) nazywamy miar¦ rozkładu, która opisuje relacj¦pomi¦dzy rozkładami
ró»ni¡cymi si¦ rozproszeniem warto±ci cechy wokółwarto±ci centralnych. Podstawowe miary rozproszenia to:
Rozst¦p - najprostsza miara rozproszenia. Jest to miara charakteryzuj¡ca empiryczny obszar zmienno±ci
badanej cechy. Wyra»a si¦ wzorem:
R = x max x min
Rozst¦p jest miar¡, która nie uwzgl¦dnia wszystkich warto±ci. Ponadto jest bardzo podatna na warto±ci
odstaj¡ce.
Rozst¦p ¢wiartkowy - nazywany równie» rozst¦pem kwartylnym to ró»nica Q 3 Q 1 (mi¦dzy trzecim
a pierwszym kwartylem). Miara ta mówi o rozproszeniu ±rodkowej cz¦±ci rozkładu. Z definicji w obszarze
mi¦dzykwartylowym znajduje si¦ 50% wszystkich obserwacji, dlatego im wi¦ksza szeroko±¢ rozst¦pu tym
wi¦ksze zró»nicowanie cechy.
Odchylenie przeci¦tne - ±rednia arytmetyczna z odchyle« bezwzgl¦dnych dla wszystkich elementów
zbioru danych statystycznych. Odchyleniem bezwzgl¦dnym nazywamy warto±¢ bezwgl¦dna ró»nicy war-
to±ci dla tego elementu x i i pewnego ustalonego punktu x . Odchylenie przeci¦tne wyra»a si¦ wzorem:
D =
1
n
P
| x i x | ,
i =1
gdzie x jest pewnym ustalonym punktem, zazwyczaj median¡ lub ±redni¡ arytmetyczn¡.
Wariancja - wariancj¡ zmiennej X nazywamy ±redni¡ arytmetyczn¡ kwadratów odchyle« poszczególnych
warto±ci zmiennej od ±redniej arytmetycznej całej zbiorowo±ci:
s 2 =
1
n
P
( x i x ) 2
i =1
Odchylenie standardowe - obok ±redniej arytmetycznej najcz¦±ciej stosowane poj¦cie statystyczne.
Odchylenie standardowe mówi jak szeroko warto±ci zmiennej s¡ rozrzucone wokół jej ±redniej. Im zbio-
rowo±¢ jest bardziej zró»nicowana, tym wi¦ksze jest odchylenie standardowe. Miara ta jest pierwiastkiem
kwadratowym z wariancji:
s =
s 1
n
P
( x i x ) 2
i =1
Odchylenie standardowe jest zatem miar¡ rozproszenia o mianie zgodnym z mianem zmiennej.
Współczynniki zmienno±ci - w odró»nieniu od odchylenia standrdowego, które okre±la bezwzgl¦dne
zró»nicowanie cechy, współczynnik zmienno±ci jest miar¡ wzgl¦dn¡, czyli zale»n¡ od wielko±ci ±redniej
arytmetycznej. Definiowany jest wzorem:
V = s
x , x 6 = 0 ,
gdzie:
s - odchylenie standardowe próby
x - ±rednia arytetyczna z próby
4
 
3.2 Miary asymetrii.
Miara asymetrii rozkładu to taka miara rozkładu, która dostarcza informacji na temat symetrii rozkładu lub
jej braku.
Współczynnik asymetrii (sko±no±¢) - wyra»a si¦ wzorem:
( x i x ) 3
( n 1)( n 2) s 3 .
n
P
A s =
i =1
Na podstawie współczynnika asymetrii okre±lamy:
A s = 0 - rozkład symetryczny,
A s > 0 - asymetria prawostronna (rozkład ma dłu»szy prawy “ogon”),
A s < 0 - asymetria lewostronna (rozkład ma dłu»szy prawy “ogon”).
3.3 Miary koncentracji.
Miary koncentracji opisuj¡ koncentracj¦ warto±ci cechy wokół ±redniej.
Kurtoza - najpopularniejsza miara skupienia obserwacji wokół ±redniej (ozn. K ). Im wy»sza jest warto±¢ K,
tym bardziej wysmukła jest krzywa liczebno±ci, a zatem i wi¦ksza koncentracja cechy wokół ±redniej. Je»eli
K < 0, to rozkład jest bardziej spłaszczony od normalnego, a je»eli K > 0 to rozkład jest bardziej wysmukły
ni» normalny. Kurtoz¦ liczymy ze wzoru:
n
P
( x i x ) 4
i =1
K =
( n 1)( n 2)( n 3) s 4
4 Elementy kombinatoryki
Kombinatoryka to dziedzina zajmuj¡ca si¦ metodami i sposobami obliczania ilo±ci elementów zbiorów sko«czo-
nych posiadaj¡cych okre±lone własno±ci.
Podstawowa zasada w kombinatoryce - zasada mno»enia : mamy wykona¢ k czynno±ci, ka»d¡ czynno±¢ mo-
»emy wykona¢ pewn¡ liczb¡ sposobów: pierwsz¡ - n 1 sposobów, ..., k-t¡ na n k sposobów. Ł¡czna ilo±¢ sposobów
wybrania tych k czynno±ci to n 1 · n 2 · ... · n k .
4.1 Wariancja
Wariancja to liczba podzbiorów zbioru X uporz¡dkowanych (ci¡gów!)
4.1.1 Wariancja z powtórzeniami
Niech A b¦dzie zbiorem n -elementowym. Ka»dy k -wyrazowy ci¡g (mog¡cych si¦ powtarza¢) elementów tego
zbioru nazywamy k -wyrazow¡ wariacj¡ z powtórzeniami zbioru n -elementowego.
Przykład. Ile 7-cyfrowych numerów telefonów mó»na zło»y¢ z 6 ró»nych cyfr?
V n = n k = 6 7
4.1.2 Wariacja bez powtórze«
Niech A b¦dzie zbiorem n ró»nych elementów. Ka»dy k -wyrazowy ci¡g ró»nych elementów z tego zbioru ( k ¬ n )
nazywamy k -wyrazow¡ wariancj¡ bez powtórze« zbioru n -elementowego.
5
110747102.001.png
Zgłoś jeśli naruszono regulamin