Automatinė klasterinė analizė

COVID-19 plitimą charakterizuoja įvairūs požymiai. Lietuvai ir kitoms šalims fiksuojami istoriniai infekcijos plitimo duomenys: naujų patvirtintų atvejų, mirčių, pasveikusių skaičius, populiacijos tankis ir kt. Analizuojami duomenys yra charakterizuojami daugeliu požymių, kurie įgyja skaitines reikšmes. Tokie duomenys vadinami daugiamačiais. Jie gali būti interpretuojami kaip taškai daugiamatėje erdvėje. Tarp stebimų požymių yra tokių, kurie nedaro įtakos duomenų analizės rezultatui, o kai kurie jų yra tarpusavyje susiję, todėl tikslinga sumažinti šių duomenų dimensiją (t. y. požymių skaičių), siekiant palengvinti tolesnę duomenų analizę. Dimensijos sumažinimas iki dviejų leidžia daugiamačius duomenis pavaizduoti dviejų koordinačių sistemoje (plokštumoje). Daugiamačių duomenų vizualizavimas padeda geriau suvokti analizuojamų duomenų struktūrą – susidariusias grupes (klasterius), išskirtis, sąryšius ir kitimo tendencijas. Ir čia esminis vaidmuo tenka tyrėjui, kuris daro išvadas ir priima galutinį sprendimą. Tyrimo metu naudotas dimensijos mažinimu pagrįstas netiesinis daugiamačių duomenų vizualizavimo daugiamačių skalių (MDS) metodas. Duomenims grupuoti papildomai buvo naudojami dirbtiniais neuroniniais tinklais grįsti metodai, o gauti klasterizavimo rezultatai vizualizuojami MDS ir t-SNE metodais.
Vizualizuojant tiriamus duomenis ta pačia spalva atvaizduojamos valstybės patekusios į vieną klasterį. Klasterizavimas atliktas naudojant saviorganizuojantį neuroninį tinklą SOM.
Duomenų klasterizavimas – dažnai duomenų analizėje kylantis uždavinys. Klasterizavimo metodais duomenys suskirstomi į grupes atsižvelgiant į jų tarpusavio panašumus. Sprendžiant COVID-19 duomenų klasterizavimo uždavinį buvo naudoti įvairūs panašumo matai, tačiau remiantis gautais rezultatais tolimesniems tyrimams pasirinktas Euklidinis atstumas. Analizė atliekama skirtingais pjūviais ir ieškoma klasterius jungiančių požymių, matematiškai interpretuojami gauti rezultatai, formuluojamos tyrimo hipotezės.
Analizei pasirinktos 36 Europos šalys: 27 Europos Sąjungos šalys, Jungtinė karalystė, 4 EFTA šalys ir 4 šalys kandidatės į ES. Naudojami tiriamo mėnesio dieniniai, nesukauptieji santykinių dydžių (100 000 gyventojų) duomenys: nauji patvirtinti atvejai, mirties, pasveikusiųjų atvejai ir populiacijos tankis. Vertinamas paskutinių 35 dienų stebimas periodas. Šie duomenys taip pat naudojami ir trumpalaikių prognozių sudarymui.
1 pav. pateikiami paskutinių 35 dienų analizuojamų duomenų vizualizavimo rezultatai gauti MDS metodu. Analizuojamų duomenų aibė sudaryta iš tam tikro periodo kasdieninių naujų patvirtintų, mirties, pasveikusiųjų atvejų, įtraukiant ir populiacijos tankį (naudojami santykiniai dydžiai 100 000 gyventojų). MDS metodo tikslas – surasti daugiamačių duomenų projekcijas mažesnės dimensijos erdvėje (pvz. plokštumoje), išlaikant atstumų tarp visų daugiamatės erdvės taškų ir jų projekcijų plokštumoje santykius. Čia vizualizuojant tiriamus duomenis ta pačia spalva žymimos valstybės patekusios į vieną klasterį. Klasterizavimas atliktas naudojant saviorganizuojantį neuroninį tinklą SOM.

1 pav. Vizualizavimo rezultatai gauti MDS metodu.

2 pav. pateikiami paskutinių 35 dienų analizuojamų duomenų vizualizavimo rezultatai gauti t-SNE metodu. Analizuojamų duomenų aibė sudaryta iš kasdieninių naujų patvirtintų, mirties, pasveikusiųjų atvejų, įtraukiant ir populiacijos tankį (naudojami santykiniai dydžiai 100 000 gyventojų). T-SNE metodo tikslas – mažesnės dimensijos erdvėje išlaikyti kuo tikslesnį taškų pasiskirstymą atitinkantį daugiamatės erdvės taškų pasiskirstymą. t-SNE siekia išsaugoti kiekvieno taško kaimynus. Vizualizuojant tiriamus duomenis ta pačia spalva žymimos valstybės patekusios į vieną klasterį. Klasterizavimas atliktas naudojant saviorganizuojantį neuroninį tinklą SOM.

2 pav. Vizualizavimo rezultatai gauti t-SNE metodu

Taikant hierarchinio klasterizavimo metodus yra nustatoma klasterių tarpusavio hierarchija (klasterių tarpusavio priklausomybių struktūra). Klasterių jungimui yra naudojamas artimiausio kaimyno metodas, tarp daugiamačių duomenų vertinamas Euklidinis atstumas. 3 pav. pateikiami hierarchinio klasterizavimo rezultatai. Metodo rezultatai vizualizuojami dendograma. Ji reprezentuoja klasterių hierarchiją, kurie yra sujungti vieni su kitais remiantis atstumų hierarchija.

3 pav. Klasterizavimo rezultatai gauti hierarchinio klasterizavimo metodu