Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni.pdf

(344 KB) Pobierz
Microsoft Word - 299-306_CHUCHRO MONIKA.doc
MONIKA CHUCHRO *
Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni
Słowa kluczowe
środowiskowe szeregi czasowe – ścieki – oczyszczalnie ścieków
Streszczenie
Predykcja zjawisk jest jednym z podstawowych zagadnień analizy środowiskowych szeregów czasowych.
Wybranie najlepszej metody przewidywania przyszłych wartości na podstawie posiadanych danych jest pro-
cesem skomplikowanym. Rozbieżność między przewidywanymi, a rzeczywistymi wartościami może być
wysoka. Jest to spowodowane zaszumieniem danych, które jest powszechnym zjawiskiem występującym
w środowiskowych szeregach czasowych. Dodatkowo na jakość predykcji wpływa fakt, że szeregi czasowe
mogą posiadać trend, cykliczność i sezonowość. Charakter środowiskowych szeregów czasowych, posiadają-
cych skomplikowaną strukturę i zaszumienie, wpływa znacznie na obniżenie jakości predykcji. Zastosowanie
licznych wariantów analiz oraz testów, połączone z obszerną wiedzą o danym szeregu czasowym umożliwia
uzyskanie dobrych wyników predykcji. W artykule zastosowano podstawowe metody predykcji szeregów
czasowych oraz sprawdzono ich skuteczność na przykładzie danych dotyczących natężenia dopływu ścieków
do oczyszczalni ścieków.
1. Wstęp
Prognoza pogody, temperatura ciała pacjentów notowana codziennie w szpitalu, waga odpadów
dowożonych w ciągu doby na wysypiska odpadów, to są przykłady szeregów czasowych. Dane
zbierane systematycznie w określonych przedziałach czasu mogą dostarczyć przydatnych informa-
cji o zmianach nasilenia zjawiska, a także okresowości występującej w danych. Szeregi czasowe
umożliwiają predykcje tych zjawisk. Prognozowanie przyszłych wartości interesującego nas zja-
wiska jest rzeczą skomplikowaną, gdyż wymaga poznania struktury danych opisujących zjawisko.
W zrozumieniu czynników kształtujących szereg czasowy pomaga wyodrębnienie składowych sze-
regu, do których należy trend, wahania sezonowe i okresowe oraz zjawiska losowe [3]. Większość
środowiskowych szeregów czasowych opisuje zjawiska skomplikowane, które są kształtowane
przez wiele czynników [6]. Przykładem takich szeregów czasowych jest średniodobowe natężenie
dopływu ścieków do oczyszczalni ścieków. Na kształtowanie natężenia dopływu mają wpływ: ilość
* Katedra Geoinformatyki i Informatyki Stosowanej, Wydział Geologii, Geofizyki i Ochrony Środowiska, AGH, Kraków
e-mail: Chuchro@geol.agh.edu.pl
299
Chuchro M.: Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni
ścieków wyprodukowanych przez gospodarstwa domowe, ilość ścieków wygenerowanych przez
zakłady przemysłowe, opady atmosferyczne i pora roku. Ilość ścieków wyprodukowanych przez
gospodarstwa domowe oraz przemysł jest natomiast uzależniona od dnia tygodnia oraz struktury
miesiąca.
Wiedza o strukturze szeregu czasowego umożliwia wybranie modeli predykcji. W zależności
od wymaganej dokładności modelu oraz posiadanych informacji o szeregu czasowym można wyko-
rzystać jeden z wielu metod predykcji, do których należy np.: estymacja nieliniowa, predykcja
na podstawie modeli autoregresyjnych, sieci neuronowe, prognozowanie na podstawie modeli re-
gresji lub modeli adaptacyjnych [3, 8]. Celem projektu było wykonanie dwóch typów analiz umoż-
liwiających predykcje szeregów czasowych, określenie ich skuteczności oraz możliwości zastoso-
wania. Do analiz wybrano modele estymacji nieliniowej oraz sieci neuronowe.
2. Charakterystyka danych
Objętość ścieków dopływających lub dowożonych do oczyszczalni ścieków, w określonej
jednostce czasu nazywamy natężeniem dopływu ścieków. Natężenie dopływu ścieków jest jednym
z podstawowych parametrów pracy oczyszczalni ścieków. Analizowane dane natężenia dopływu
ścieków pochodzą z trzech komunalnych oczyszczalni ścieków odbierających ścieki z Krakowa,
Sandomierza oraz Warszawy. Największa spośród analizowanych oczyszczalni ścieków – Czajka,
znajduje się w Warszawie. Została oddana do eksploatacji w 1991 roku, w celu odbierania ścieków
z prawobrzeżnej części stolicy. Do oczyszczalni dopływa 200 tyś. metrów sześciennych w ciągu
doby. Drugą, co do wielkości analizowaną oczyszczalnią ścieków jest obiekt należący do Miejskie-
go Przedsiębiorstwa Wodociągów i Kanalizacji w Krakowie – „Kujawy”. Obiekt ten został otwarty
w 1999 roku. W „Kujawach” oczyszczane są ścieki pochodzące od 250 tyś. mieszkańców Nowej
Huty. Najmniejszą spośród analizowanych oczyszczalni ścieków jest obiekt zlokalizowany w San-
domierzu. W ciągu doby dopływa do niej 3 tys. metrów sześciennych ścieków pochodzących
z Sandomierza oraz okolic.
Cechą charakterystyczną wybranych szeregów czasowych jest ich dobowa rozdzielczość oraz
długość, każdy szereg składa się z 2922 wyrazów. Analizowane dane uwzględniają przedział czasu
od 01.01.2000 do 31.12.2007. Ze względu na rozmiar analizowanych wybrano pakiet Statistica 8
z najnowszą aktualizacją modułu analitycznego. Podstawowe analizy wykazały, że szeregi czasowe
natężenia dopływu ścieków są niestacjonarne i nieergodyczne [4]. Dane zawierają trend, zmiany
cykliczne, okresowe oraz szum [3]. Kolejną cechą charakterystyczną analizowanych szeregów cza-
sowych, jest ich wysoka skośność prawostronna (dla o.ś. Sandomierz =3), spowodowana przewagą
występowania intensywnych opadów nad incydentami braku wody i awariami w sieci wodno-kana-
lizacyjnej.
Szeregi czasowe z trzech analizowanych oczyszczalni ścieków wykazują dodatnią liniową kore-
lacje, Pearsona wynoszącą 0,6 z dobowymi wartościami opadów. Dodatnia korelacja występuje
między danymi z poszczególnych analizowanych oczyszczalni ścieków. Największa wartość kore-
lacji występuje między oczyszczalnią „Kujawy” Kraków, a obiektem w Sandomierzu i wynosi 0,5.
Najmniejsza wartość korelacji występuje miedzy danymi pochodzącymi z oczyszczalni ścieków
w Warszawie i Krakowie, wynosi ona 0,3.
Wysoka wartość korelacji liniowej między dwoma oczyszczalniami ścieków może wystąpić,
gdy obiekty położone są w niewielkim oddaleniu od siebie oraz przyjmują ścieki o podobnej struk-
turze. W takim przypadku możliwe jest wykonanie jednego modelu dla obu obiektów lub też wyko-
rzystanie fragmentów modelu z jednej oczyszczalni do wykonania modelu dla drugiej oczyszczalni
ścieków.
Obliczanie korelacji liniowej Pearsona miało także na celu sprawdzenie czy występuje powią-
zanie między opadami a danymi z oczyszczalni. Wysoka wartość tego współczynnika świadczy
300
Krakowska Konferencja Młodych Uczonych 2009
o wysokiej zależności między objętością ścieków dopływających do oczyszczalni a opadami. Wyso-
ka dodatnia korelacja może też wystąpić między natężeniem dopływu do oczyszczalni z jednej
miejscowości a opadami z innej, blisko położonej miejscowości. Jeśli wartość współczynnika
korelacji byłaby wysoka, pozwoliłoby to na uproszczenie modeli a także zmniejszenie nakładów
finansowych potrzebnych na zakup danych pogodowych.
3. Estymacja nieliniowa
Określenie przyszłego przebiegu szeregu czasowego w sposób ogólny jest możliwe, dzięki za-
stosowaniu metod estymacji [1]. Wstępna analiza danych wykazała, że szereg czasowy natężenia
dopływu ścieków do oczyszczalni wykazuje fluktuacje występujące wewnątrz tygodnia. Charak-
terystyczne są wysokie wartości natężenia dopływu ścieków występujące w środy oraz w soboty.
Dodatkowo najniższe wartości natężenia dopływu ścieków można zaobserwować w niedziele.
Wahania wielkości natężenia dopływu występują także pomiędzy poszczególnymi tygodniami
wewnątrz miesiąca. Fluktuacje wielkości są cechą wspólną dla szeregów czasowych natężenia
dopływu ścieków z trzech analizowanych oczyszczalni ścieków. Na podstawie tych wiadomości
wybrano metodę estymacji nieliniowej z wykorzystaniem funkcji sinus. Modele estymacji nielinio-
wej zostały dopasowane metodą najmniejszych kwadratów, a także przy użyciu funkcji straty
określonej przez użytkownika. W przypadku zastosowania kryterium najmniejszych kwadratów
do estymacji parametrów modeli nieliniowych wykorzystano algorytmy Levenberga-Marquardta
i Gaussa-Newtona [1]. Modele estymacji z funkcją straty zawierały procedurę quasi-Newtona. Jako
funkcję straty wykorzystano kilka różnych funkcji opisanych poniżej, których skuteczność następ-
nie sprawdzano. Zadaniem funkcji straty było zniwelowanie wpływu wysokich odstających war-
tości w danych [2]. Modele estymacji zostały wykonane dla trzech kompletów danych: surowych,
zestandaryzowanych oraz znormalizowanych.
Celem estymacji nieliniowej było dopasowanie przebiegu modelu do zmian wewnątrz tygod-
niowych oraz miesięcznych.
3.1 Wyniki estymacji nieliniowej
Z powodu wysokiej liczby danych (2922) oraz ich zaszumienia, procent wytłumaczonej warian-
cji danych metodą estymacji nieliniowej jest stosunkowo niski. Najlepsze rezultaty uzyskano dla
modeli powstałych z danych zestandaryzowanych a także poddanych filtracji górnoprzepustowej,
odcinającej zmienności o okresowości większej niż 2 miesiące. Powstałe modele estymacji nielinio-
wej zostały porównane z danymi. Najlepsze dopasowanie do danych jest widoczne dla modelu
z danych zestandaryzowanych z funkcją straty w postaci:
L = |Obs - Pred|
(1)
gdzie:
L – funkcja straty;
Obs – wartości rzeczywiste;
Pred – wartości przewidywane modelem estymacji.
Dobre dopasowanie do danych występuje też w modelach dla danych przefiltrowanych. W mo-
delach tych zastosowano kryterium najmniejszych kwadratów i algorytm Levenberga-Marquardta.
Wykonano model tygodnia oraz miesiąca dla każdego zestawu danych.
Pierwszymi wykonanymi modelami były modele tygodnia. Najlepsze rezultaty uzyskano dla
modeli wykorzystujących zestandaryzowane dane, funkcję straty podaną we wzorze (1), a także
zawierających procedurę quasi-Newtona. Tak przygotowany model dla danych pochodzących
301
Chuchro M.: Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni
z oczyszczalni ścieków w Krakowie jest widoczny na rysunku 1. Nieznacznie gorsze wyniki uzys-
kano dla danych poddanych filtrowi górnoprzepustowemu, poddanych takiej samej procedurze jak
podana powyżej.
W wybranych modelach dla danych zestandaryzowanych i filtrowanych widoczne są minima
funkcji sinus przypadające w niedziele, środowe maksimum funkcji sinus. Dla modelu tygodnia
widoczny jest zbliżony przebieg modeli do przebiegu danych zestandaryzowanych. Okresy wyso-
kich wartości w danych pokrywają się z podobnym przebiegiem funkcji sinus. Minimum funkcji
sinus przypada między sobotą a niedzielą. Porównując model z danymi (rys. 1), można zauważyć
niższe wartości natężenia dopływu przypadające w niedziele.
Rysunek 1. Model tygodnia metodą estymacji nieliniowej
Figure 1. Week’s model made by nonlinear estimation method
Modele miesiąca estymacji nieliniowej zostały przygotowane w sposób analogiczny jak modele
tygodnia. W tym przypadku modele powstałe z danych zestandaryzowanych osiągnęły najlepsze
rezultaty. Dopasowanie do danych modeli metodą najmniejszych kwadratów uzyskało takie same
rezultaty jak dopasowanie modeli z funkcją straty i z procedurą quasi-Newtona. W przypadku mo-
delu miesiąca (rys. 2) przebieg estymowanej funkcji sinus jest słabo zarysowany. Można zaobser-
wować, że ekstrema funkcji sinus pokrywają się z okresami w danych, o niższych lub wyższych
wartościach od średniego przebiegu.
Metoda ta pozwala na przybliżone określenie wartości parametru natężenia dopływu ścieków.
Lepsze rezultaty otrzymuje się dla okresów bezdeszczowych, niż okresów zmiennej pogody.
Rysunek 2. Model miesięcznego dopływu ścieków do o.ś. w Krakowie wykonany metodą estymacji nieliniowej
Figure 2. Monthly model of flow into WWTP in Cracow made by nonlinear estimation method
302
424012789.001.png
Krakowska Konferencja Młodych Uczonych 2009
3.2 Korelacja
Dla dokładnego określenia jakości modelu wykonano jego korelacje z danymi zestandaryzowa-
nymi (rys.3). Jako metodę wybrano korelację z ruchomym oknem gausowskim. Szerokość okien
korelacji (Gausowska sigma) wynosiła 5, 10, 30. Jak widać na wykresie korelacji (rys.3) występują
okresy z dobrą dodatnią korelacją, po których występują okresy bez korelacji lub z ujemną korela-
cją modelu z danymi. Prawdopodobnie zmiany w wielkości korelacji są spowodowane opadami.
Zwykle pogorszenie pogody wraz z opadami trwa od kilku do kilkunastu dni, po czym następuje
poprawa pogody. Najlepsze rezultaty estymacji nieliniowej osiągnięto przy pogodzie bezdeszczo-
wej; wartość korelacji gausowskiej była w tych okresach wyższa od 0,3 (dla Sigmy = 5)[9].
Rysunek 3. Korelacja z ruchomym oknem Gaussa
Figure 3. Correlation with moving Gaussian window
4. Sieci neuronowe
Drugą metodą analizy były sieci neuronowe. Sieciami neuronowymi nazywamy symulatory
modeli matematycznych realizujących pseudorównoległe przetwarzanie danych. Zasada działania
sieci odpowiada działaniu komórek neuronów. Zaletą tej metody jest ich tolerancja na nieciągłości,
przypadkowe zaburzenia, a także braki danych w zbiorach uczących. Dzięki temu sieci neuronowe
są dobrym narzędziem do analizy zaszumionych środowiskowych szeregów czasowych. Sieć skła-
da się przynajmniej z trzech warstw. Pierwsza warstwa wejściowa, przekazuje informacje do war-
stwy ukrytej. W warstwie ukrytej może znajdować się dowolna ilość neuronów ułożonych w war-
stwy. W warstwach pośrednich dane są przetwarzane, aby wypracować wyniki pośrednie, które
następnie są podstawą do wyznaczania ostatecznego wyniku na warstwę wyjściową-wynik [7].
4.1 Wyniki sieci neuronowych
Do analizy wybrano typy sieci uczonych z nauczycielem: MLP (percepton wielowarstwowy)
i RBF (radialna funkcja bazowa). Liczba warstw sieci i neuronów w poszczególnych warstwach
była ustalana automatycznie przez program. Obie wybrane sieci są jednokierunkowe oraz nie wy-
stępuje w nich sprzężenie zwrotne [7]. Sieci RBF prowadzą do wykrycia bardziej złożonych związ-
ków w danych, w tym celu wymagają jednak większej liczby warstw, przez co obliczenia są bar-
dziej czasochłonne [5].
W trakcie poszukiwania najlepszego modelu predykcji środowiskowych szeregów czasowych
wykonano kilkadziesiąt modeli sieci neuronowych dla każdej z analizowanych oczyszczalni ście-
303
424012789.002.png
Zgłoś jeśli naruszono regulamin