Antros COVID-19 pandemijos bangos duomenų klasterinė analizė

COVID-19 plitimą charakterizuoja įvairūs požymiai. Lietuvai ir kitoms šalims fiksuojami istoriniai infekcijos plitimo duomenys: patvirtintų atvejų, mirčių, pasveikusių skaičius, populiacijos tankis ir kt. Analizuojami duomenys yra charakterizuojami daugeliu požymių, kurie įgyja skaitines reikšmes. Tokie duomenys vadinami daugiamačiais. Jie gali būti interpretuojami kaip taškai daugiamatėje erdvėje. Tarp stebimų požymių yra tokių, kurie nedaro įtakos duomenų analizės rezultatui, o kai kurie jų yra tarpusavyje susiję, todėl tikslinga sumažinti šių duomenų dimensiją (t. y. požymių skaičių), siekiant palengvinti tolesnę duomenų analizę. Dimensijos sumažinimas iki dviejų leidžia daugiamačius duomenis pavaizduoti dviejų koordinačių sistemoje (plokštumoje). Daugiamačių duomenų vizualizavimas padeda geriau suvokti analizuojamų duomenų struktūrą – susidariusias grupes (klasterius), išskirtis, sąryšius ir kitimo tendencijas. Ir čia esminis vaidmuo tenka tyrėjui, kuris daro išvadas ir priima galutinį sprendimą. Tyrimo metu naudotas dimensijos mažinimu pagrįstas netiesinis daugiamačių duomenų vizualizavimo daugiamačių skalių (MDS) metodas. Duomenims klasterizuoti papildomai buvo naudojami dirbtiniais neuroniniais tinklais grįsti metodai, o gauti klasterizavimo rezultatai vizualizuojami MDS ir t-SNE metodais.

Duomenų klasterizavimas – dažnai duomenų analizėje kylantis uždavinys. Klasterizavimo metodais duomenys suskirstomi į grupes atsižvelgiant į jų tarpusavio panašumus. Sprendžiant COVID-19 duomenų klasterizavimo uždavinį buvo naudoti įvairūs panašumo matai, tačiau tolimesniems tyrimams pasirinktas Euklidinis atstumas. Analizė atliekama skirtingais pjūviais ir ieškoma klasterius jungiančių požymių, matematiškai interpretuojami gauti rezultatai, formuluojamos tyrimo hipotezės.
Analizei pasirinktos 36 Europos šalys: 27 Europos Sąjungos šalys, Jungtinė karalystė, 4 EFTA šalys ir 4 šalys kandidatės į ES. Naudojami tiriamo mėnesio dieniniai, nesukauptieji santykinių dydžių (100 000 gyventojų) duomenys: identifikuoti, mirties, pasveikusiųjų atvejai ir populiacijos tankis.

Balandžio mėnesio duomenų analizė

Analizuojant 2020.04.01–2020.04.30 periodo identifikuotus, mirties, pasveikusiųjų atvejus ir populiacijos tankį (santykiniai dydžiai 100 000 gyventojų) nustatyta, kad viename klasteryje su Lietuva buvo Graikija, Norvegija, Slovėnija, Latvija, Vengrija, Bulgarija, Albanija, Lenkija, Rumunija, Kroatija ir Čekija. Į vieną klasterį patekusių šalių identifikuotų, mirčių, pasveikusių atvejų kitimo dinamika labai panaši. Išvada gauta ir klasteris sudarytas remiantis vizualizavimo rezultatais gautais MDS algoritmu (1 pav.), t-SNE algoritmu (2 pav.). Hierarchinio klasterizavimo (3 pav.), bei savireguliuojančiu tinklu SOM (4 pav.) gauti rezultatai taip pat patvirtina šį faktą.

1 pav. Vizualizavimo rezultatai gauti MDS metodu (analizuojamas duomenų periodas
2020.04.01 – 2020.04.30)
2 pav. Vizualizavimo rezultatai gauti t-SNE metodu (analizuojamas duomenų periodas
2020.04.01 – 2020.04.30)

Taikant hierarchinio klasterizavimo metodus yra nustatoma klasterių tarpusavio hierarchija (klasterių tarpusavio priklausomybių struktūra). Naudojamas klasterio jungimo artimiausio kaimyno metodas, vertinamas Euklidinis atstumas tarp daugiamačių duomenų.

3 pav. Klasterizavimo rezultatai gauti hierarchinio klasterizavimo metodu (analizuojamas duomenų periodas 2020.04.01 – 2020.04.30)
4 pav. Klasterizavimo rezultatai gauti SOM metodu (analizuojamas duomenų periodas 2020.04.01 – 2020.04.30)

Liepos mėnesio duomenų analizė

Liepos mėnesį susirgimų skaičius buvo sumažėjęs ir stabilus visose nagrinėjamose šalyse. Nagrinėjant liepos periodo duomenis, Lietuva pateko į vieną klasterį su Kipru, Estija, Suomija, Graikija, Vengrija, Latvija, Norvegija ir Slovakija. Gretimame klasteryje Danija, Vokietija ir Italija, tačiau šiose šalyse patvirtintų atvejų, tenkančių 100 000 gyventojų nežymiai daugiau. Lyginant balandžio ir liepos mėnesio rezultatus matome, kad Italijoje padėtis stabilizavosi ir pagal Covid-19 plitimo tendencijas (nustatomų atvejų skaičiaus mažėjimo tendencija) Italija artėja prie Lietuvos. 5 pav. išskirtame lange yra valstybės, esančios šalia Lietuvos ir turinčios panašias tendencijas.

5 pav. Vizualizavimo rezultatai gauti MDS metodu (analizuojamas duomenų periodas
2020.07.01 – 2020.07.31)
6 pav. Vizualizavimo rezultatai gauti t-SNE metodu (analizuojamas duomenų periodas
2020.07.01 – 2020.07.31)
7 pav. Klasterizavimo rezultatai gauti hierarchinio klasterizavimo metodu (analizuojamas duomenų periodas 2020.07.01 – 2020.07.31)
8 pav. Klasterizavimo rezultatai gauti SOM metodu (analizuojamas duomenų periodas
2020.07.01 – 2020.07.31)

Lyginant su balandžio mėnesio duomenimis, klasterį paliko Čekija, Slovėnija, Vengrija, Lenkija, Albanija, Kroatija, Bulgarija ir Rumunija. Šiose šalyse stebima atvejų didėjimo tendencija.

Rugpjūčio mėnesio duomenų analizė

Rugpjūčio mėnesį situacija lyginant su liepa keičiasi nežymiai, tačiau klasteryje kartu su Lietuva jau priskirta ir Vokietija, o Islandija, Danija, Čekija, Austrija, Lenkija ir Portugalija sudaro atskirą klasterį. Šiose šalyse daugiau patvirtintų susirgimo atvejų, patvirtintų atvejų skaičius pradeda didėti.

9 pav. Vizualizavimo rezultatai gauti MDS metodu (analizuojamas duomenų periodas
2020.08.01 – 2020.08.31)
10 pav. Vizualizavimo rezultatai gauti t-SNE metodu (analizuojamas duomenų periodas
2020.08.01 – 2020.08.31)
11 pav. Klasterizavimo rezultatai gauti hierarchinio klasterizavimo metodu (analizuojamas duomenų periodas 2020.08.01 – 2020.08.31)
12 pav. Klasterizavimo rezultatai gauti SOM metodu (analizuojamas duomenų periodas
2020.08.01 – 2020.08.31)

Rugsėjo mėnesio duomenų analizė

Analizuojant rugsėjo mėnesio duomenis, galima pastebėti, kad Lietuva yra viename klasteryje su Italija, Vokietija, Estija, Latvija, Suomija ir Graikija. Slovakija pradeda tolti nuo Lietuvos ir artėja prie Airijos ir Jungtinės Karalystės, kur sergamumas didesnis. Lietuva dar lieka klasteryje su valstybėmis, turinčiomis mažesnį patvirtintų atvejų skaičių.

13 pav. Vizualizavimo rezultatai gauti MDS metodu (analizuojamas duomenų periodas
2020.09.01 – 2020.09.30)
14 pav. Vizualizavimo rezultatai gauti t-SNE metodu (analizuojamas duomenų periodas
2020.09.01 – 2020.09.30)
15 pav. Klasterizavimo rezultatai gauti hierarchinio klasterizavimo metodu (analizuojamas duomenų periodas 2020.09.01 – 2020.09.30)
16 pav. Klasterizavimo rezultatai gauti SOM metodu (analizuojamas duomenų periodas
2020.09.01 – 2020.09.30)

Spalio mėnesio duomenų analizė

Situacija kitokia nagrinėjant spalio mėnesio duomenis. Analizuojant 2020.10.01–2020.10.25 periodo identifikuotus, mirties, pasveikusiųjų atvejus ir populiacijos tankį (santykiniai dydžiai 100 000 gyventojų) nustatyta, kad viename klasteryje su Lietuva yra Graikija, Latvija, Norvegija, Vokietija. Šiek tiek toliau, bet į tą patį klasterį patenka Kipras, Italija, Estija, Švedija ir Suomija. Į vieną klasterį patekusių šalių identifikuotų, mirčių, pasveikusių atvejų kitimo dinamika labai panaši. Išvada gauta ir klasteris sudarytas remiantis vizualizavimo rezultatais gautais MDS algoritmu (17 pav.), t-SNE algoritmu (18 pav.). Iš gautų rezultatų matosi, kad situacija kardinaliai pasikeitė Čekijoje, Lenkijoje, Belgijoje, Montenegre. Situacija Italijoje darosi panaši į situaciją Lietuvoje. Lietuva pradėjo tolti nuo Skandinavijos valstybių (Norvegijos ir Suomijos), bei kaimynių Estijos ir Latvijos, nors kol kas dar priklauso tam pačiam klasteriui.

17 pav. Vizualizavimo rezultatai gauti MDS metodu (analizuojamas duomenų periodas
2020.10.01 – 2020.10.31)
18 pav. Vizualizavimo rezultatai gauti t-SNE metodu (analizuojamas duomenų periodas
2020.10.01 – 2020.10.31)
19 pav. Klasterizavimo rezultatai gauti hierarchinio klasterizavimo metodu (analizuojamas duomenų periodas 2020.10.01 – 2020.10.31)
20 pav. Klasterizavimo rezultatai gauti SOM metodu (analizuojamas duomenų periodas
2020.10.01 – 2020.10.31)