casestudy2.pdf

(230 KB) Pobierz
Microsoft Word - Casestudy2.doc
Poznań, 14 grudnia 2002
Case Study 2 – Analiza skupień
Celem ćwiczenia jest przeprowadzenie procesu grupowania / analizy skupień dla jednego z
wybranych zbiorów danych (tj. dostarczonych przez prowadzącego). W trakcie realizacji tego
case study należy także zapoznać się z różnymi metodami grupowania i różnym doborem
parametrów dla każdej ze stosowanych metod.
W przypadku stosowania pakietu Statistica – proszę stosować zaimplementowane tam algorytmy
aglomeracyjne i k – średnich.
Uwaga : dostarczane dane mają dość surowy format. Należy zawsze zbadać poprawność
dostarczonych danych. Jeśli poszczególne atrybuty/cech zdefiniowane są na różnorodnych
skalach pomiarowych lub skalach liczbowych o różnym zakresie dziedzin, zaleca się wykonanie
przetwarzania wstępnego – w szczególności konieczne jest dokonanie normalizacji lub
standaryzacji . Ponadto definicje zbiorów atrybutów/cech zawierają nadmiarowe atrybuty –
zwłaszcza dla danych charakteryzujących zróżnicowanie poziomu życia w poszczególnych
województwach Polski.
Zalecane jest najpierw wykonanie grupowania metodą aglomeracyjną , następnie po analizie
różnych dendrogramów można wykonać grupowanie metodą k -średnich (dla k wynikającego z
poprzedniej analizy i własnej interpretacji charakterystyki problemy).
W ramach każdego z algorytmów grupowania konieczne jest zbadanie różnych parametrów i
wpływu ich na wynik końcowy (hierarchię i budowę skupień oraz konkretny opis utworzonych
skupień). Przy czym nie jest konieczne sprawdzanie wszystkich kombinacji różnych
parametrów, ale sprawdzenie tylko kilku najbardziej dogodnych dla danego problemu.
Należy w sprawozdaniu prowadzić dyskusję dobieranych parametrów (zwłaszcza dla metody
aglomeracyjnej) i uzasadnić wybór końcowy.
Przykładowo dla grupowania aglomeracyjnego wykonaj hierarchizacje przy rożnych definicjach
odległości, i sposobach aglomeracji. Zastanów się:
o Czy miara odległości wpływa znacząco na wyniki?
o Zilustrować obliczenia wykresami drzewkowymi.
o Zidentyfikuj grupy przykładów obiektow podobnych.
o Zidentyfikuj ewnatulane obserwacje odstające i znajdż przyczyny ich „nietypowosci”.
o Przeprowadź podobna analize dla wybranych podzbiorow cech (atrybutów, zmiennych) –
zalecane, gdyż niektóre dane mają nadmiarowe zbiory cech.
(Uwaga: Program STATISTICA nie potrafi przeprowadzac analizy dla pojedynczych
zmiennych!).
Podobne pytania możesz sobie postawić dla grupowania k -średnich.
Każdorazowo należy również zwracać uwagę na interpretację wyniku końcowego, np.:
o Dla metody aglomeracyjnej dokładnie analizować strukturę drzewa dendrogramu
(oceniając czy drzewa ma właściwe „zrównoważenie” liczebności skupień, lub czy
pojedyncze skupienia są pożądane),
o Warto analizować także wykres odległości wiązanie względem kolejnych iteracji/etapów
algorytmu – na jego podstawie i obserwacji drzewa hierarchii należy podjąć decyzje, co
do możliwej liczby skupień.
o Starać się analizować opis skupień za pomocą wartości średnich, odchyleń i innych
parametrów,
o Spróbować podać własną interpretację przynależności podobnych obiektów do skupień
Pamiętaj, że należy ocenić czy wszystkie z rozpatrywanych zmiennych są konieczne i
pożyteczne w procesie analizy – zbędne wyeliminować.
Całość przebiegu analizy i interpretacji doboru parametrów oraz wyników końcowych powinno
być zawarte w sprawozdaniu końcowym.
Analizie podlegają następujące zbiory danych:
1. jedjewro.sta
2. wojew1.xls
3. wojew2.xls
Załączniki:
1. „Wyciąg” z helpu do modułu analizy skupień
2. Krótka charakterystyka zbiorów danych.
2
Załącznik nr 1 do case study nr 2
Krótka charakterystyka zbiorów danych przeznaczonych dla
przećwiczenia analizy skupień w case study nr 2
Dane „jedjewro”
Dane zawierają informacje o spożyciu różnych produktów żywnościowych w poszczególnych
krajach europejskich. Dokładnej dla każdego z wybranych produktów podaje się wartość
oszacowanej konsumpcji protein obliczanej na osobę i dzień – może mieć to znaczenie przy
analizie sposobu odżywiania się mieszkańców różnych krajów europejskich..
Rozważa się następujące zmienne/produkty:
mięso wołowe,
wieprzowina i drób,
jaja,
mleko,
ryby,
produkty mączne,
pokarmy o dużej zawartości skrobi,
rośliny strączkowe, orzechy, nasiona roślin oleistych,
owoce i warzywa
Celem analizy jest zidentyfikowanie regionów Europy, które charakteryzują się wewnętrznym
podobieństwem ze względu na spożycie powyższych produktów i udział w nich protein. Ponadto
dokonaj opisu charakterystyki tych wyróżnionych regionów, aby zidentyfikować, jakie są
charakterystyczne wartości różnicujące regiony pomiędzy sobą.
Źródło danych to praca Greenacre (1984); z Weber, (1973). Agrarpolitik im Spannungsfeld der
Internationlen Ernährungspolitik. Kiel, Institut für Agrarpolitik und Marktlehre.
Zwróć uwagę, że struktura spożycia jest charakterystyczna dla krajów europejskich przed
kilkudziesięciu laty – obecnie mogła ulec zmianie.
Dane „wojewodztwa”
Dane zawierają informacje o przestrzennym zróżnicowaniu poziomu życia w Polsce na
początku lat 90 tych. Zgodnie z badaniami statystycznymi poziom i warunki życia ludności w
Polsce są silnie zróżnicowane przestrzennie, co jest powiązane z ogólnym rozwojem społeczno-
gospodarczym poszczególnych województw , poziomem wytwarzanego produktu krajowego
brutto na 1 mieszkańca, poziomem uprzemysłowienia, poziomem wykształcenia, zamożnością
przeciętnego mieszkańca, standardem jego życia, stopniem urbanizacji, a także
funkcjonowaniem wielkich aglomeracji miejskich na terenia województw. Inne czynniki mogą
obejmować dostępność określonych usług, szkolnictwa na odpowiednim poziomie, dóbr kultury,
różnych sposobów wykorzystania czasu wolnego, a także aspekty ekologiczne i ochrony
środowiska. Podstawową jednostką, którą charakteryzuje się różnymi atrybutami jest
województwo – w podziale na 49 województw przed reformą administracyjną.
Celem analizy jest zidentyfikowanie regionów Polski (grup pewnych województw), które
charakteryzują się wewnętrznym podobieństwem ze względu na poziom życia w nich. Ponadto
dokonaj opisu charakterystyki tych wyróżnionych regionów, aby zidentyfikować, jakie są
charakterystyczne wartości różnicujące regiony pomiędzy sobą.
3
Dostępne są dwa rodzaje zbiorów danych:
1. Charakteryzuje województwa bardziej z punktu widzenia parametrów ekonomicznych,
wskaźników finansowych. jak i poziomu rozwoju określonych aspektów przemysłowo-
usługowych i poziomu szkolnictwa?
2. W mniejszym stopniu charakteryzuje województwa współczynnikami finansowymi;
dodatkowo zawiera informacje na temat stopy życiowej, zagrożeń cywilizacyjnych, stylu
i standardu życia.
W trakcie analizy pamiętaj, że dane dotyczą okresu początku lat 90-tych, co związane jest z
użyciem być może innych jednostek i zakresu pomiarów niż dostępne obecnie – np. w
przypadku jednostek pieniężnych, poziomu bezrobocia,...
Zwróć uwagę, że podane definicje zbiorów atrybutów/cech mogą zawierać nadmiarowe
informacje (liczba wskaźników jest potencjalnie zbyt liczna), oraz niektóre atrybuty mogą być
nie w pełni zdefiniowane.
4
Załącznik nr 1 do case study nr 2
Uwagi do przebiegu analizy skupień – wybrane fragmenty z „Help-u”
programu Statistica
Wprowadzenie do metod aglomeracyjnych - Hierarchiczne drzewo
Rozważmy poziomy hierarchiczny wykres drzewkowy rozpoczynając od lewej strony wykresu,
gdzie każdy obiekt stanowi swoją własną klasę. Wyobraźmy sobie teraz, że bardzo małymi
krokami „osłabiamy” nasze kryterium tego, na ile jest on lub nie jest wyjątkowy. Innymi słowy,
obniżamy próg stanowiący o decyzji przypisania dwóch lub więcej obiektów do tego samego
skupienia. Tym sposobem wiążemy ze sobą coraz to więcej obiektów i agregujemy je w coraz to
większe skupienia elementów coraz bardziej różniących się od siebie. W końcu, na ostatnim
etapie, wszystkie obiekty zostają ze sobą połączone.
Na wykresach tych na osi poziomej odłożone są odległości aglomeracyjne (w pionowych
wykresach sopelkowych odległość aglomeracyjna odkładana jest na osi pionowej). Zatem przy
każdym węźle na wykresie (gdzie uformowało się nowe skupienie) możemy odczytać
odległość, przy której odpowiednie elementy zostały powiązane ze sobą tworząc nowe
pojedyncze skupienie. Jeśli dane mają wyrazistą „strukturę” w tym sensie, że istnieją skupienia
podobnych do siebie obiektów, to często struktura ta znajdzie odbicie na hierarchicznym drzewie
w postaci oddzielnych gałęzi. Pomyślna analiza przy pomocy metody łączenia daje możliwość
wykrywania skupień (gałęzi) i ich interpretacji.
Wyniki aglomeracji - Hierarchiczny wykres drzewkowy
Przycisk Poziomy hierarchiczny wykres drzewkowy: Naciśnięcie tego przycisku spowoduje
utworzenie poziomego diagramu drzewkowego, który przedstawia następstwo grupowania
obiektów. Informacje na temat interpretacji diagramu drzewkowego znajdują się w części
Wprowadzenie do analizy skupień.
Przycisk Pionowy wykres sopelkowy : Naciskamy ten przycisk, aby utworzyć pionowy diagram
drzewkowy (odległości wiązania odłożone są na osi pionowej). I znów polecamy odwołanie się
do części Wprowadzenie do analizy skupień, gdzie znajdują się informacje na temat interpretacji
diagramu drzewkowego.
Prostokątne gałęzie : Na obu typach wykresów drzewkowych (patrz powyżej) mamy możliwość
wyboru wyświetlania albo prostokątnych gałęzi (zaznaczamy opcję), albo ukośnych gałęzi
(anulujemy zaznaczenie opcji). Drugi format może podnieść czytelność diagramu w przypadku
rozwiązań ze „zrównoważonymi” strukturami łączenia.
Skaluj drzewo do odl_wiązania/odl_maks*100: Po wybraniu tej opcji, drzewo zostanie
przeskalowane do skali standaryzowanej (tzn. odległość wiązania/odległość maksymalna*100).
W przeciwnym wypadku, gdy nie wybierzemy tej opcji, skala będzie oparta na odległości
wiązania wybranej w Panelu początkowym.
UWAGA : W zależności od bieżącego ustawienia domyślnego rozmiaru czcionki dla wartości
skali (patrz Domyślne opcje skal), etykiety pozycji (przypadków lub zmiennych) na wykresie
drzewkowym mogą się nakładać lub część (np. co druga lub co trzecia) z nakładających się
etykiet może zostać pominięta (patrz Filtry); w takich wypadkach klikamy etykiety na wykresie
i zmniejszamy rozmiar czcionki.
5
Zgłoś jeśli naruszono regulamin