Klasterinė analizė

COVID-19 plitimą charakterizuoja įvairūs požymiai. Lietuvai ir kitoms šalims fiksuojami istoriniai infekcijos plitimo duomenys: patvirtintų atvejų, mirčių, pasveikusių skaičius, populiacijos tankis ir kt. Analizuojami duomenys yra charakterizuojami daugeliu požymių, kurie įgyja skaitines reikšmes. Tokie duomenys vadinami daugiamačiais. Jie gali būti interpretuojami kaip taškai daugiamatėje erdvėje. Tarp stebimų požymių yra tokių, kurie nedaro įtakos duomenų analizės rezultatui, o kai kurie jų yra tarpusavyje susiję, todėl tikslinga sumažinti šių duomenų dimensiją (t. y. požymių skaičių), siekiant palengvinti tolesnę duomenų analizę. Dimensijos sumažinimas iki dviejų leidžia daugiamačius duomenis pavaizduoti dviejų koordinačių sistemoje (plokštumoje). Daugiamačių duomenų vizualizavimas padeda geriau suvokti analizuojamų duomenų struktūrą – susidariusias grupes (klasterius), išskirtis, sąryšius ir kitimo tendencijas. Ir čia esminis vaidmuo tenka tyrėjui, kuris daro išvadas ir priima galutinį sprendimą. Tyrimo metu naudotas dimensijos mažinimu pagrįstas netiesinis daugiamačių duomenų vizualizavimo daugiamačių skalių (MDS) metodas. Taip pat dirbtiniais neuroniniais tinklais gauti klasterizavimo rezultatai vizualizuojami MDS ir t-SNE metodais.
Duomenų klasterizavimas – dažnai duomenų analizėje kylantis uždavinys. Klasterizavimo metodais duomenys suskirstomi į grupes atsižvelgiant į jų tarpusavio panašumus. Sprendžiant COVID-19 duomenų klasterizavimo uždavinį buvo naudoti įvairūs panašumo matai. Analizė atliekama skirtingais pjūviais ir ieškoma klasterius jungiančių požymių, matematiškai interpretuojami gauti rezultatai, formuluojamos tyrimo hipotezės.
Remiantis išskirtais klasteriais formuojamos trumpalaikės infekcijos plitimo prognozės.
Trumpalaikės prognozės grindžiamos šalių, patenkančių į tą patį klasterį su Lietuva ir turinčių ilgesnę istoriją skaičiuojant nuo pirmo nustatyto susirgimo atvejo, duomenimis. Prognozavimui naudojami regresijos modeliai, kuriuose į klasterį patekusios šalys įtraukiamos kaip nepriklausomi kintamieji (kovariantės). Prognozuojama tiek dienų į priekį, kiek ilgesnė yra šalių, patekusių į vieną klasterį su Lietuva, nustatytų atvejų istorija. Stebėjimo pradžioje Lietuvai artimiausia šalis pagal infekcijos plitimo duomenis buvo Šiaurės Makedonija, kurioje pirmas COVID-19 infekcijos atvejis buvo nustatytas dviem dienomis anksčiau negu Lietuvoje (1 pav.), tačiau su laiku panašumas mažėjo ir Šiaurės Makedonija nutolo nuo Lietuvos.

1 pav. Rezultatai gauti t-SNE metodu nuo pirmo susirgimo fiksuoto Lietuvoje (analizuojamų duomenų periodas 2020.02.28 – 2020.03.31).

2 pav. pateikiami klasterizavimo rezultatai gauti analizuojant 2020.02.28 – 2020.06.30 periodo duomenis. Į vieną klasterį su Lietuva dažnai pateko Šiaurės Makedonija, Kroatija, Graikija, Rumunija, Gruzija, Izraelis. Tiriant 2020.07.01 – 2020.09.30 d. duomenis, tendencijos išlieka panašios, t.y. į klasterį arba į gretimus klasterius patenka tos pačios šalys (3 pav.), tačiau Šiaurės Makedonijos, Izraelio ir Baltarusijos situacija pasikeitė ir jos atsiskyrė ir sudaro atskirą klasterį kartu su Islandija ir Šveicarija. Kartu su Lietuva klasteryje liko valstybės, taikiusios griežtesnę suvaržymų tvarką ir pasižyminčios mažesniais sergamumo rodikliais. 1-3 pav. pateikiami vizualizavimo rezultatai gauti t-SNE metodu.

2 pav. Rezultatai gauti t-SNE metodu nuo pirmo susirgimo fiksuoto Lietuvoje (analizuojamų duomenų periodas 2020.02.28 – 2020.06.30).
3 pav. Rezultatai gauti t-SNE metodu (analizuojamų duomenų periodas 2020.07.01 – 2020.09.30).

Analogiškas tyrimas buvo atliktas naudojant daugiamačių skalių MDS metodą. Nagrinėjant analizuojamų 2020.02.28 – 2020.06.30 periodo duomenis (4 pav.), į klasterį su Lietuva pateko Graikija, Gruzija, Kroatija, Suomija, Rumunija, Šiaurės Makedonija. Vokietija, Austrija, Estija buvo toliau nuo klasterio.

4 pav. Rezultatai gauti MDS metodu nuo pirmo susirgimo fiksuoto Lietuvoje (analizuojamų duomenų periodas 2020.02.28 – 2020.06.30).

Analizuojant 2020.02.28 – 2020.06.30 periodo santykinius dydžius (100 000 gyventojų) identifikuotus, mirties, pasveikusiųjų atvejus ir populiacijos tankį: viename klasteryje su Lietuva sugrupuotos Kroatija, Graikija, Gruzija, Suomija, Rumunija ir Šiaurės Makedonija. Į klasterį patekusių šalių identifikuotų, mirčių, pasveikusių atvejų kitimo dinamika labai panaši lyginant su rezultatais gautais t-SNE algoritmu (2 pav.). Hierarchinio klasterizavimo (5 pav.), bei Savireguliuojančiu tinklu SOM (6 pav.) gauti rezultatai patvirtina gautus rezultatus.

5 pav. Klasterizavimo rezultatai gauti hierarchinio klasterizavimo metodu nuo pirmo susirgimo fiksuoto Lietuvoje (analizuojamų duomenų periodas 2020.02.28 – 2020.06.30).
6 pav. Klasterizavimo rezultatai gauti SOM metodu nuo pirmo susirgimo fiksuoto Lietuvoje (analizuojamų duomenų periodas 2020.02.28 – 2020.06.30).

Analizuojant 2020.07.01 – 2020.09.30 duomenis ir analizuojant rezultatų kitimo dinamiką stebime, kas Šiaurės Makedonija, Rumunija, Izraelis visada nutolo nuo Lietuvos ir nebepriklauso klasteriui. Kiekviena Europos valstybė taikė skirtingus karantino ribojimus. Kaip matyti iš gautų rezultatų stebima situacija dėl įvestų ribojimų pasikeitė. Dabar kartu su Lietuva Į klasterį patenka Graikija, Gruzija, Kroatija, Suomija, Norvegija, Austrija ir Vokietija. Tai valstybės, taikiusios griežtesnę suvaržymų tvarką ir pasižyminčios mažesniais sergamumo rodikliais (7 pav.). 8-9 pav. pateikiami to pačio periodo klasterizavimo rezultatai.

7 pav. Nuo 2020-07-01 iki 2020-09-30d. klasterizavimo rezultatų vizualizavimas MDS metodu.
8 pav. Klasterizavimo rezultatai gauti hierarchinio klasterizavimo metodu nuo pirmo susirgimo fiksuoto Lietuvoje (analizuojamų duomenų periodas 2020-07-01 iki 2020-09-30d).
9 pav. Klasterizavimo rezultatai gauti SOM metodu nuo pirmo susirgimo fiksuoto Lietuvoje (analizuojamų duomenų periodas 2020-07-01 iki 2020-09-30d).

Situacija ženkliai ėmė keistis rugsėjo mėnesį. Visose valstybėse didėja susirgimo atvejų, tvirtinama apie antrą susirgimo bangą, todėl rugsėjo mėnesio duomenų analizę atlikome atskirai. Tačiau klasteriai išliko tie patys (10 pav.).

10 pav. Nuo 2020-09-01 iki 2020-09-30d. klasterizavimo rezultatų vizualizavimas MDS metodu.