WSAD(1).pdf
(
346 KB
)
Pobierz
110747102 UNPDF
OpracowanezagadnieniazeWst¦pudoStatystycznejAnalizyDanych
napodstawiewykładuprowadzonegoprzezdrahab.Oleksandra
Zaihraieva
MariuszStrzelecki(szczeles@mat.uni.torun.pl)
MichałTydryszewski(mictyd@mat.uni.torun.pl)
ChristophKretschkevonHochenstein(welo@mat.uni.torun.pl)
6czerwca2009
1 Typy zmiennych w analizie danych. Rozkład Cz¦sto±ci. Graficzne
przedstawienie danych.
1.1 Typy (poziomy zmiennych):
nominalny
- Zmienne przyjmuj¡ warto±ci (etykiety), dla których nie istnieje wynikaj¡ce z natury danego
zjawiska uporz¡dkowanie. Nawet je±li warto±ci zmiennej nominalnej s¡ wyra»ane liczbowo, to liczby te s¡
tylko umowymi identyfikatorami. Nie mo»na zatem wykonywa¢ na nich »adnych działa« arytmetycznych,
ani ich porównywa¢.
Przykłady zmiennych nominalnych:
płe¢, powiat zamieszkania
Dozwolone operacje statystyczne:
zliczanie, moda (najcz¦±ciej spotykana warto±¢), obliczanie frakcji (pro-
cent cało±ci)
porz¡dkowy
- zmienne przyjmuj¡ warto±ci, dla których dane jest uporz¡dkowanie, jednak nie da si¦ w
sensowny sposób okre±li¢ ró»nicy oraz ilorazu mi¦dzy dwoma warto±ciami.
Przykłady zmiennych porz¡dkowych:
wykształcenie, stopie« zaufania do prezydenta
Dozwolone operacje statystyczne:
porównywanie warto±ci, zliczanie, obliczanie frakcji, moda, mediana,
centyle, minimum, maksimum
ilo±ciowy
- s¡ to wła±ciwo±ci cechy, któr¡ mo»na zmierzy¢, zwa»y¢, przeliczy¢ itp.
Przykłady zmiennych ilo±ciowych:
wiek, waga, pensja
Dozwolone operacje statystyczne:
porównywanie warto±ci, zliczanie, obliczanie frakcji, moda, mediana,
centyle, minimum, maksimum, ±rednia arytmetyczna, wariancja, odchylenie standardowe,
1.2 Rozkład Cz¦sto±ci:
Rozkładem cz¦sto±ci jest przyporz¡dkowanie kolejnym warto±ciom zmiennej (
x
i
) odpowiadaj¡cych im liczeb-
no±ci (
n
i
). Rozkład odzwierciedla struktur¦ badanej zbiorowo±ci z punktu widzenia okre±lonej cechy (pokazuje
1
jakie warto±ci przyjmuje zmienna i jak cz¦sto).
Czasem wygodnie jest przedstawi¢ rozkład cz¦sto±ci dokonuj¡c grupowania obserwacji (podział na klasy). Warto-
±ci
x
nale»y wówczas pogrupowa¢ w przedziały wykluczaj¡ce si¦ wzajemnie i pokrywaj¡ce cały zbiór zmienno±ci
x
, a ka»demu przedziałowi przyporz¡dkowa¢ cz¦sto±¢ wzgl¦dn¡, z jak¡ warto±ci zmiennej
x
pojawiaj¡ si¦ w
danym przedziale.
Ogólnie rzecz bior¡c, rozkładem cz¦sto±ci jest ka»de uporz¡dkowanie danych, które pokazuje liczebno±¢ ró»-
nych warto±ci zmiennej lub liczebno±ci warto±ci nale»¡cych do dowolnie okre±lonych grup zmiennej, zwanych
przedziałami klasowymi.
1.3 Graficzne przedstawianie danych:
Wykres jest to graficzne przedstawienie zbioru danych liczbowych, b¡d¹ pewnego aspektu tego zboiru. Wy-
kresy umo»liwiaj¡ nam spójne my±lenie w kategoriach wzrokowych o problemach zwi¡zanymi z damymi. Zbiory
danych cz¦sto s¡ bardzo zło»one. Celem wykresów jest ich uproszczenie. Stosuje si¦ je nie tylko przy przedsta-
wianiu zbiorów konkretnych danych, lecz tak»e jako wzrokowe modele pomocne w my±leniu, tworzeniu poj¦¢, i
rozwi¡zywaniu problemów statystycznych.
Histogram
- to wykres w którym liczebno±ci wyst¦powania badanej cechy przedstawione s¡ w postaci
słupków (prostok¡tów). Prostok¡ty te umieszone s¡ na osi współrz¦dnych, wyznaczone s¡ z jednej strony
przez przedziały klasowe, warto±ci cechy (podstawa słupka), z drugiej za± przez liczebno±¢ elementów
wpadaj¡cych do okre±lonego przedziału klasowego (wysoko±¢ słupka).
Wielobok liczebno±ci
- ró»ni si¦ od histogramu tym, »e tamten zakłada, i» wszystkie przypadki w obr¦bie
przedziału klasowego rozkładaj¡ si¦ równomiernie. W wieloboku liczebno±ci natomiast przyjmujemy, »e
wszystkie przypadki w ka»dym przedziale skupiaj¡ si¦ w jego ±rodku. Zamiast rysowa¢ poziom¡ lini¦
równ¡ całkowitej długo±ci przedziału stawiamy kropk¦ nad ±rodkiem ka»dego przedziału na wysoko±ci
odpowiadaj¡cej liczebno±ci. Przyj¦te jest pozostawienie po jednym dodatkowym przedziale na obu ko«cach
osi poziomej, a tak»e ł¡czenie kropek s¡siednich przedziałów.
Wielobok liczebno±ci skumulowanych
- od wieloboku liczebno±ci odró»niaj¡ go dwie cechy: Po pierw-
sze zamiast stawiania kropek odpowiadaj¡cych liczebno±ciom surowym stawiamy kropki odpowiadaj¡ce
liczebno±ciom skumulowanym. Po drugie, zamiast stawiania kropek nad ±rodkiem ka»dego przedziału,
stawiamy kropki nad dokładn¡ granic¡ przedziału
2 Miary tendencji centralnej (poło»enia).
Definicja.
Miara rozkładu jest to liczbowa charakterystyka rozkładu cechy, dostarczaj¡ca informacji na temat
wła±ciwo±ci tego rozkładu. Tak¡ charakterystyk¦ okre±la si¦ w zale»no±ci od przedmiotu badania statystycznego
jako:
parametr
- je±li badane s¡ dane z pełnej populacji
statystyka
- je±li przedmiotem badania s¡ dane z próby losowej
2
Definicja.
Miar¡ tendencji centralnej rozkładu
nazywamy miar¦ rozkładu, która okre±la poło»enie warto±ci cen-
tralnych rozkładu (warto±ci typowych, ±rednich). Miary tendencji centralnej zaliczamy do miar poło»enia.
Definicja.
Miar¡ poło»enia rozkładu
nazywamy miar¦ rozkładu, która okre±la relacj¦ mi¦dzy dwoma identycz-
nymi rozkładami, ale przesuni¦tymi wzgl¦dem osi odci¦tych układu współrz¦dnych.
Przejd¹my tymczasem do omówienia najwazniejszych miar tendencji centralnej. S¡ to:
2.1 Mediana
Median¡
lub
warto±ci¡ ±rodkow¡
, któr¡ oznaczamy
m
e
- próbki
x
1
,...,x
n
nazywamy ±rodkow¡ liczb¦ w upo-
rz¡dkowanej niemalej¡co próbce
x
(1)
¬
x
(2)
¬
...
¬
x
(
n
)
,
gdzie
n
jest liczb¡ nieparzyst¡, albo ±redni¡ arytmetyczn¡ dwóch ±rodkowych liczb, gdy
n
jest liczb¡ parzyst¡,
tzn.
<
x
(
n
+1)
/
2
,
gdy n nieparzyste
m
e
=
:
2
(
x
(
n/
2)
+
x
(
n/
2+1)
)
,
gdy n parzyste
2.2 Moda
Warto±ci¡ modaln¡ (mod¡, dominant¡) m
0
próbki
x
1
,...,x
n
o powtarzaj¡cych si¦ warto±ciach nazywamy naj-
cz¦±ciej powtarzaj¡c¡ si¦ warto±¢ (o ile istnieje!), nie b¦d¡c¡
x
min
ani te»
x
max
.
2.3 rednia arytmetyczna
redni¡ arytmetyczn¡
liczb
x
1
,...,x
n
nazywamy liczb¦
x
=
1
n
P
x
i
.
i
=1
Je»eli w próbce wynik pomiaru
x
i
wyst¡pił
n
i
razy,
i
= 1
,...,k
, gdzie
P
n
i
=
n
, to ±redni¡ arytmetyczn¡ oblicza
i
=1
si¦ według równowa»nego wzoru:
x
=
1
n
P
x
i
n
i
.
i
=1
rednia ta bywa równie» nazywana
±redni¡ arytmetyczn¡ wa»on¡
. Liczno±ci
n
i
pełni¡ tu rol¦ tzw.
wag
.
2.4 rednia uci¦ta
redni¡ uci¦t¡
nazywamy ±redni¡ arytmetyczn¡ liczon¡ bez
k
warto±ci skrajnych:
x
(
k
+1)
+
...
+
x
(
n
−
k
)
n
−
2
k
3
1
3 Miary rozproszenia, asymetrii, koncentracji.
3.1 Miary rozproszenia.
Miar¡ rozproszenia (zmienno±ci, dyspresji)
nazywamy miar¦ rozkładu, która opisuje relacj¦pomi¦dzy rozkładami
ró»ni¡cymi si¦ rozproszeniem warto±ci cechy wokółwarto±ci centralnych. Podstawowe miary rozproszenia to:
Rozst¦p
- najprostsza miara rozproszenia. Jest to miara charakteryzuj¡ca empiryczny obszar zmienno±ci
badanej cechy. Wyra»a si¦ wzorem:
R
=
x
max
−
x
min
Rozst¦p jest miar¡, która nie uwzgl¦dnia wszystkich warto±ci. Ponadto jest bardzo podatna na warto±ci
odstaj¡ce.
Rozst¦p ¢wiartkowy
- nazywany równie» rozst¦pem kwartylnym to ró»nica
Q
3
−
Q
1
(mi¦dzy trzecim
a pierwszym kwartylem). Miara ta mówi o rozproszeniu ±rodkowej cz¦±ci rozkładu. Z definicji w obszarze
mi¦dzykwartylowym znajduje si¦ 50% wszystkich obserwacji, dlatego im wi¦ksza szeroko±¢ rozst¦pu tym
wi¦ksze zró»nicowanie cechy.
Odchylenie przeci¦tne
- ±rednia arytmetyczna z odchyle« bezwzgl¦dnych dla wszystkich elementów
zbioru danych statystycznych. Odchyleniem bezwzgl¦dnym nazywamy warto±¢ bezwgl¦dna ró»nicy war-
to±ci dla tego elementu
x
i
i pewnego ustalonego punktu
x
. Odchylenie przeci¦tne wyra»a si¦ wzorem:
D
=
1
n
P
|
x
i
−
x
|
,
i
=1
gdzie
x
jest pewnym ustalonym punktem, zazwyczaj median¡ lub ±redni¡ arytmetyczn¡.
Wariancja
- wariancj¡ zmiennej
X
nazywamy ±redni¡ arytmetyczn¡ kwadratów odchyle« poszczególnych
warto±ci zmiennej od ±redniej arytmetycznej całej zbiorowo±ci:
s
2
=
1
n
P
(
x
i
−
x
)
2
i
=1
Odchylenie standardowe
- obok ±redniej arytmetycznej najcz¦±ciej stosowane poj¦cie statystyczne.
Odchylenie standardowe mówi jak szeroko warto±ci zmiennej s¡ rozrzucone wokół jej ±redniej. Im zbio-
rowo±¢ jest bardziej zró»nicowana, tym wi¦ksze jest odchylenie standardowe. Miara ta jest pierwiastkiem
kwadratowym z wariancji:
s
=
s
1
n
P
(
x
i
−
x
)
2
i
=1
Odchylenie standardowe jest zatem miar¡ rozproszenia o mianie zgodnym z mianem zmiennej.
Współczynniki zmienno±ci
- w odró»nieniu od odchylenia standrdowego, które okre±la bezwzgl¦dne
zró»nicowanie cechy, współczynnik zmienno±ci jest miar¡ wzgl¦dn¡, czyli zale»n¡ od wielko±ci ±redniej
arytmetycznej. Definiowany jest wzorem:
V
=
s
x
, x
6
= 0
,
gdzie:
s
- odchylenie standardowe próby
x
- ±rednia arytetyczna z próby
4
3.2 Miary asymetrii.
Miara asymetrii rozkładu
to taka miara rozkładu, która dostarcza informacji na temat symetrii rozkładu lub
jej braku.
Współczynnik asymetrii (sko±no±¢)
- wyra»a si¦ wzorem:
(
x
i
−
x
)
3
(
n
−
1)(
n
−
2)
s
3
.
n
P
A
s
=
i
=1
Na podstawie współczynnika asymetrii okre±lamy:
A
s
= 0 - rozkład symetryczny,
A
s
>
0 - asymetria prawostronna (rozkład ma dłu»szy prawy “ogon”),
A
s
<
0 - asymetria lewostronna (rozkład ma dłu»szy prawy “ogon”).
3.3 Miary koncentracji.
Miary koncentracji
opisuj¡ koncentracj¦ warto±ci cechy wokół ±redniej.
Kurtoza
- najpopularniejsza miara skupienia obserwacji wokół ±redniej (ozn.
K
). Im wy»sza jest warto±¢ K,
tym bardziej wysmukła jest krzywa liczebno±ci, a zatem i wi¦ksza koncentracja cechy wokół ±redniej. Je»eli
K <
0, to rozkład jest bardziej spłaszczony od normalnego, a je»eli
K >
0 to rozkład jest bardziej wysmukły
ni» normalny. Kurtoz¦ liczymy ze wzoru:
n
P
(
x
i
−
x
)
4
i
=1
K
=
(
n
−
1)(
n
−
2)(
n
−
3)
s
4
4 Elementy kombinatoryki
Kombinatoryka to dziedzina zajmuj¡ca si¦ metodami i sposobami obliczania ilo±ci elementów zbiorów sko«czo-
nych posiadaj¡cych okre±lone własno±ci.
Podstawowa zasada w kombinatoryce -
zasada mno»enia
: mamy wykona¢
k
czynno±ci, ka»d¡ czynno±¢ mo-
»emy wykona¢ pewn¡ liczb¡ sposobów: pierwsz¡ -
n
1
sposobów, ..., k-t¡ na
n
k
sposobów. Ł¡czna ilo±¢ sposobów
wybrania tych k czynno±ci to
n
1
·
n
2
·
...
·
n
k
.
4.1 Wariancja
Wariancja to liczba podzbiorów zbioru
X
uporz¡dkowanych (ci¡gów!)
4.1.1 Wariancja z powtórzeniami
Niech
A
b¦dzie zbiorem
n
-elementowym. Ka»dy
k
-wyrazowy ci¡g (mog¡cych si¦ powtarza¢) elementów tego
zbioru nazywamy
k
-wyrazow¡ wariacj¡ z powtórzeniami zbioru
n
-elementowego.
Przykład.
Ile 7-cyfrowych numerów telefonów mó»na zło»y¢ z 6 ró»nych cyfr?
V
n
=
n
k
= 6
7
4.1.2 Wariacja bez powtórze«
Niech
A
b¦dzie zbiorem
n
ró»nych elementów. Ka»dy
k
-wyrazowy ci¡g ró»nych elementów z tego zbioru (
k
¬
n
)
nazywamy
k
-wyrazow¡ wariancj¡ bez powtórze« zbioru
n
-elementowego.
5
Plik z chomika:
UMK
Inne pliki z tego folderu:
Loader.java
(0 KB)
new2.mp3
(938 KB)
AI(1).docx
(29 KB)
Systemy operacyjne.docx
(51 KB)
SO.zip
(12386 KB)
Inne foldery tego chomika:
MZ
Opel Astra F
SPSS 18 PL
zachomikowane
Zgłoś jeśli
naruszono regulamin