Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni.pdf

MONIKA CHUCHRO *

Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni

Słowa kluczowe

środowiskowe szeregi czasowe – ścieki – oczyszczalnie ścieków

Streszczenie

Predykcja zjawisk jest jednym z podstawowych zagadnień analizy środowiskowych szeregów czasowych.

Wybranie najlepszej metody przewidywania przyszłych wartości na podstawie posiadanych danych jest pro-

cesem skomplikowanym. Rozbieżność między przewidywanymi, a rzeczywistymi wartościami może być

wysoka. Jest to spowodowane zaszumieniem danych, które jest powszechnym zjawiskiem występującym

w środowiskowych szeregach czasowych. Dodatkowo na jakość predykcji wpływa fakt, że szeregi czasowe

mogą posiadać trend, cykliczność i sezonowość. Charakter środowiskowych szeregów czasowych, posiadają-

cych skomplikowaną strukturę i zaszumienie, wpływa znacznie na obniżenie jakości predykcji. Zastosowanie

licznych wariantów analiz oraz testów, połączone z obszerną wiedzą o danym szeregu czasowym umożliwia

uzyskanie dobrych wyników predykcji. W artykule zastosowano podstawowe metody predykcji szeregów

czasowych oraz sprawdzono ich skuteczność na przykładzie danych dotyczących natężenia dopływu ścieków

do oczyszczalni ścieków.

1. Wstęp

Prognoza pogody, temperatura ciała pacjentów notowana codziennie w szpitalu, waga odpadów

dowożonych w ciągu doby na wysypiska odpadów, to są przykłady szeregów czasowych. Dane

zbierane systematycznie w określonych przedziałach czasu mogą dostarczyć przydatnych informa-

cji o zmianach nasilenia zjawiska, a także okresowości występującej w danych. Szeregi czasowe

umożliwiają predykcje tych zjawisk. Prognozowanie przyszłych wartości interesującego nas zja-

wiska jest rzeczą skomplikowaną, gdyż wymaga poznania struktury danych opisujących zjawisko.

W zrozumieniu czynników kształtujących szereg czasowy pomaga wyodrębnienie składowych sze-

regu, do których należy trend, wahania sezonowe i okresowe oraz zjawiska losowe [3]. Większość

środowiskowych szeregów czasowych opisuje zjawiska skomplikowane, które są kształtowane

przez wiele czynników [6]. Przykładem takich szeregów czasowych jest średniodobowe natężenie

dopływu ścieków do oczyszczalni ścieków. Na kształtowanie natężenia dopływu mają wpływ: ilość

* Katedra Geoinformatyki i Informatyki Stosowanej, Wydział Geologii, Geofizyki i Ochrony Środowiska, AGH, Kraków

e-mail: Chuchro@geol.agh.edu.pl

299

Chuchro M.: Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni

ścieków wyprodukowanych przez gospodarstwa domowe, ilość ścieków wygenerowanych przez

zakłady przemysłowe, opady atmosferyczne i pora roku. Ilość ścieków wyprodukowanych przez

gospodarstwa domowe oraz przemysł jest natomiast uzależniona od dnia tygodnia oraz struktury

miesiąca.

Wiedza o strukturze szeregu czasowego umożliwia wybranie modeli predykcji. W zależności

od wymaganej dokładności modelu oraz posiadanych informacji o szeregu czasowym można wyko-

rzystać jeden z wielu metod predykcji, do których należy np.: estymacja nieliniowa, predykcja

na podstawie modeli autoregresyjnych, sieci neuronowe, prognozowanie na podstawie modeli re-

gresji lub modeli adaptacyjnych [3, 8]. Celem projektu było wykonanie dwóch typów analiz umoż-

liwiających predykcje szeregów czasowych, określenie ich skuteczności oraz możliwości zastoso-

wania. Do analiz wybrano modele estymacji nieliniowej oraz sieci neuronowe.

2. Charakterystyka danych

Objętość ścieków dopływających lub dowożonych do oczyszczalni ścieków, w określonej

jednostce czasu nazywamy natężeniem dopływu ścieków. Natężenie dopływu ścieków jest jednym

z podstawowych parametrów pracy oczyszczalni ścieków. Analizowane dane natężenia dopływu

ścieków pochodzą z trzech komunalnych oczyszczalni ścieków odbierających ścieki z Krakowa,

Sandomierza oraz Warszawy. Największa spośród analizowanych oczyszczalni ścieków – Czajka,

znajduje się w Warszawie. Została oddana do eksploatacji w 1991 roku, w celu odbierania ścieków

z prawobrzeżnej części stolicy. Do oczyszczalni dopływa 200 tyś. metrów sześciennych w ciągu

doby. Drugą, co do wielkości analizowaną oczyszczalnią ścieków jest obiekt należący do Miejskie-

go Przedsiębiorstwa Wodociągów i Kanalizacji w Krakowie – „Kujawy”. Obiekt ten został otwarty

w 1999 roku. W „Kujawach” oczyszczane są ścieki pochodzące od 250 tyś. mieszkańców Nowej

Huty. Najmniejszą spośród analizowanych oczyszczalni ścieków jest obiekt zlokalizowany w San-

domierzu. W ciągu doby dopływa do niej 3 tys. metrów sześciennych ścieków pochodzących

z Sandomierza oraz okolic.

Cechą charakterystyczną wybranych szeregów czasowych jest ich dobowa rozdzielczość oraz

długość, każdy szereg składa się z 2922 wyrazów. Analizowane dane uwzględniają przedział czasu

od 01.01.2000 do 31.12.2007. Ze względu na rozmiar analizowanych wybrano pakiet Statistica 8

z najnowszą aktualizacją modułu analitycznego. Podstawowe analizy wykazały, że szeregi czasowe

natężenia dopływu ścieków są niestacjonarne i nieergodyczne [4]. Dane zawierają trend, zmiany

cykliczne, okresowe oraz szum [3]. Kolejną cechą charakterystyczną analizowanych szeregów cza-

sowych, jest ich wysoka skośność prawostronna (dla o.ś. Sandomierz =3), spowodowana przewagą

występowania intensywnych opadów nad incydentami braku wody i awariami w sieci wodno-kana-

lizacyjnej.

Szeregi czasowe z trzech analizowanych oczyszczalni ścieków wykazują dodatnią liniową kore-

lacje, Pearsona wynoszącą 0,6 z dobowymi wartościami opadów. Dodatnia korelacja występuje

między danymi z poszczególnych analizowanych oczyszczalni ścieków. Największa wartość kore-

lacji występuje między oczyszczalnią „Kujawy” Kraków, a obiektem w Sandomierzu i wynosi 0,5.

Najmniejsza wartość korelacji występuje miedzy danymi pochodzącymi z oczyszczalni ścieków

w Warszawie i Krakowie, wynosi ona 0,3.

Wysoka wartość korelacji liniowej między dwoma oczyszczalniami ścieków może wystąpić,

gdy obiekty położone są w niewielkim oddaleniu od siebie oraz przyjmują ścieki o podobnej struk-

turze. W takim przypadku możliwe jest wykonanie jednego modelu dla obu obiektów lub też wyko-

rzystanie fragmentów modelu z jednej oczyszczalni do wykonania modelu dla drugiej oczyszczalni

ścieków.

Obliczanie korelacji liniowej Pearsona miało także na celu sprawdzenie czy występuje powią-

zanie między opadami a danymi z oczyszczalni. Wysoka wartość tego współczynnika świadczy

300

Krakowska Konferencja Młodych Uczonych 2009

o wysokiej zależności między objętością ścieków dopływających do oczyszczalni a opadami. Wyso-

ka dodatnia korelacja może też wystąpić między natężeniem dopływu do oczyszczalni z jednej

miejscowości a opadami z innej, blisko położonej miejscowości. Jeśli wartość współczynnika

korelacji byłaby wysoka, pozwoliłoby to na uproszczenie modeli a także zmniejszenie nakładów

finansowych potrzebnych na zakup danych pogodowych.

3. Estymacja nieliniowa

Określenie przyszłego przebiegu szeregu czasowego w sposób ogólny jest możliwe, dzięki za-

stosowaniu metod estymacji [1]. Wstępna analiza danych wykazała, że szereg czasowy natężenia

dopływu ścieków do oczyszczalni wykazuje fluktuacje występujące wewnątrz tygodnia. Charak-

terystyczne są wysokie wartości natężenia dopływu ścieków występujące w środy oraz w soboty.

Dodatkowo najniższe wartości natężenia dopływu ścieków można zaobserwować w niedziele.

Wahania wielkości natężenia dopływu występują także pomiędzy poszczególnymi tygodniami

wewnątrz miesiąca. Fluktuacje wielkości są cechą wspólną dla szeregów czasowych natężenia

dopływu ścieków z trzech analizowanych oczyszczalni ścieków. Na podstawie tych wiadomości

wybrano metodę estymacji nieliniowej z wykorzystaniem funkcji sinus. Modele estymacji nielinio-

wej zostały dopasowane metodą najmniejszych kwadratów, a także przy użyciu funkcji straty

określonej przez użytkownika. W przypadku zastosowania kryterium najmniejszych kwadratów

do estymacji parametrów modeli nieliniowych wykorzystano algorytmy Levenberga-Marquardta

i Gaussa-Newtona [1]. Modele estymacji z funkcją straty zawierały procedurę quasi-Newtona. Jako

funkcję straty wykorzystano kilka różnych funkcji opisanych poniżej, których skuteczność następ-

nie sprawdzano. Zadaniem funkcji straty było zniwelowanie wpływu wysokich odstających war-

tości w danych [2]. Modele estymacji zostały wykonane dla trzech kompletów danych: surowych,

zestandaryzowanych oraz znormalizowanych.

Celem estymacji nieliniowej było dopasowanie przebiegu modelu do zmian wewnątrz tygod-

niowych oraz miesięcznych.

3.1 Wyniki estymacji nieliniowej

Z powodu wysokiej liczby danych (2922) oraz ich zaszumienia, procent wytłumaczonej warian-

cji danych metodą estymacji nieliniowej jest stosunkowo niski. Najlepsze rezultaty uzyskano dla

modeli powstałych z danych zestandaryzowanych a także poddanych filtracji górnoprzepustowej,

odcinającej zmienności o okresowości większej niż 2 miesiące. Powstałe modele estymacji nielinio-

wej zostały porównane z danymi. Najlepsze dopasowanie do danych jest widoczne dla modelu

z danych zestandaryzowanych z funkcją straty w postaci:

L = |Obs - Pred|

(1)

gdzie:

L – funkcja straty;

Obs – wartości rzeczywiste;

Pred – wartości przewidywane modelem estymacji.

Dobre dopasowanie do danych występuje też w modelach dla danych przefiltrowanych. W mo-

delach tych zastosowano kryterium najmniejszych kwadratów i algorytm Levenberga-Marquardta.

Wykonano model tygodnia oraz miesiąca dla każdego zestawu danych.

Pierwszymi wykonanymi modelami były modele tygodnia. Najlepsze rezultaty uzyskano dla

modeli wykorzystujących zestandaryzowane dane, funkcję straty podaną we wzorze (1), a także

zawierających procedurę quasi-Newtona. Tak przygotowany model dla danych pochodzących

301

Chuchro M.: Skuteczność metod predykcji natężenia dopływu ścieków do oczyszczalni

z oczyszczalni ścieków w Krakowie jest widoczny na rysunku 1. Nieznacznie gorsze wyniki uzys-

kano dla danych poddanych filtrowi górnoprzepustowemu, poddanych takiej samej procedurze jak

podana powyżej.

W wybranych modelach dla danych zestandaryzowanych i filtrowanych widoczne są minima

funkcji sinus przypadające w niedziele, środowe maksimum funkcji sinus. Dla modelu tygodnia

widoczny jest zbliżony przebieg modeli do przebiegu danych zestandaryzowanych. Okresy wyso-

kich wartości w danych pokrywają się z podobnym przebiegiem funkcji sinus. Minimum funkcji

sinus przypada między sobotą a niedzielą. Porównując model z danymi (rys. 1), można zauważyć

niższe wartości natężenia dopływu przypadające w niedziele.

Rysunek 1. Model tygodnia metodą estymacji nieliniowej

Figure 1. Week’s model made by nonlinear estimation method

Modele miesiąca estymacji nieliniowej zostały przygotowane w sposób analogiczny jak modele

tygodnia. W tym przypadku modele powstałe z danych zestandaryzowanych osiągnęły najlepsze

rezultaty. Dopasowanie do danych modeli metodą najmniejszych kwadratów uzyskało takie same

rezultaty jak dopasowanie modeli z funkcją straty i z procedurą quasi-Newtona. W przypadku mo-

delu miesiąca (rys. 2) przebieg estymowanej funkcji sinus jest słabo zarysowany. Można zaobser-

wować, że ekstrema funkcji sinus pokrywają się z okresami w danych, o niższych lub wyższych

wartościach od średniego przebiegu.

Metoda ta pozwala na przybliżone określenie wartości parametru natężenia dopływu ścieków.

Lepsze rezultaty otrzymuje się dla okresów bezdeszczowych, niż okresów zmiennej pogody.

Rysunek 2. Model miesięcznego dopływu ścieków do o.ś. w Krakowie wykonany metodą estymacji nieliniowej

Figure 2. Monthly model of flow into WWTP in Cracow made by nonlinear estimation method

302

Krakowska Konferencja Młodych Uczonych 2009

3.2 Korelacja

Dla dokładnego określenia jakości modelu wykonano jego korelacje z danymi zestandaryzowa-

nymi (rys.3). Jako metodę wybrano korelację z ruchomym oknem gausowskim. Szerokość okien

korelacji (Gausowska sigma) wynosiła 5, 10, 30. Jak widać na wykresie korelacji (rys.3) występują

okresy z dobrą dodatnią korelacją, po których występują okresy bez korelacji lub z ujemną korela-

cją modelu z danymi. Prawdopodobnie zmiany w wielkości korelacji są spowodowane opadami.

Zwykle pogorszenie pogody wraz z opadami trwa od kilku do kilkunastu dni, po czym następuje

poprawa pogody. Najlepsze rezultaty estymacji nieliniowej osiągnięto przy pogodzie bezdeszczo-

wej; wartość korelacji gausowskiej była w tych okresach wyższa od 0,3 (dla Sigmy = 5)[9].

Rysunek 3. Korelacja z ruchomym oknem Gaussa

Figure 3. Correlation with moving Gaussian window

4. Sieci neuronowe

Drugą metodą analizy były sieci neuronowe. Sieciami neuronowymi nazywamy symulatory

modeli matematycznych realizujących pseudorównoległe przetwarzanie danych. Zasada działania

sieci odpowiada działaniu komórek neuronów. Zaletą tej metody jest ich tolerancja na nieciągłości,

przypadkowe zaburzenia, a także braki danych w zbiorach uczących. Dzięki temu sieci neuronowe

są dobrym narzędziem do analizy zaszumionych środowiskowych szeregów czasowych. Sieć skła-

da się przynajmniej z trzech warstw. Pierwsza warstwa wejściowa, przekazuje informacje do war-

stwy ukrytej. W warstwie ukrytej może znajdować się dowolna ilość neuronów ułożonych w war-

stwy. W warstwach pośrednich dane są przetwarzane, aby wypracować wyniki pośrednie, które

następnie są podstawą do wyznaczania ostatecznego wyniku na warstwę wyjściową-wynik [7].

4.1 Wyniki sieci neuronowych

Do analizy wybrano typy sieci uczonych z nauczycielem: MLP (percepton wielowarstwowy)

i RBF (radialna funkcja bazowa). Liczba warstw sieci i neuronów w poszczególnych warstwach

była ustalana automatycznie przez program. Obie wybrane sieci są jednokierunkowe oraz nie wy-

stępuje w nich sprzężenie zwrotne [7]. Sieci RBF prowadzą do wykrycia bardziej złożonych związ-

ków w danych, w tym celu wymagają jednak większej liczby warstw, przez co obliczenia są bar-

dziej czasochłonne [5].

W trakcie poszukiwania najlepszego modelu predykcji środowiskowych szeregów czasowych

wykonano kilkadziesiąt modeli sieci neuronowych dla każdej z analizowanych oczyszczalni ście-

303

Plik z chomika:

Inne pliki z tego folderu:

Inne foldery tego chomika: