Tutkijat tulevat tekemään virheitä korona­ennusteissaan, sanoo apulais­professori Pauliina Ilmonen ja kertoo, mitä jokaisen suomalaisen olisi syytä ymmärtää korona­tilastojen tulkitsemisesta - Elämä | HS.fi
Elämä|Tilastot

Tutkijat tulevat tekemään virheitä korona­ennusteissaan, sanoo apulais­professori Pauliina Ilmonen ja kertoo, mitä jokaisen suomalaisen olisi syytä ymmärtää korona­tilastojen tulkitsemisesta

Korona-aikana meistä on tullut tilastojen tuijottajia ja tulkitsijoita. Aalto-yliopiston tilastotieteen apulaisprofessori Pauliina Ilmonen kertoo, mitkä ovat yleisimpiä tilastoihin liittyviä tulkintavirheitä ja pohtii, voivatko koronatilastojen virhetulkinnat jopa olla vaaraksi.

”Hyvin harvoin meillä on täydellistä mallia, mutta epätäydelliset mallit ovat todellisuudesta parhaita arvioita, mitä pystymme tekemään”, Pauliina Ilmonen sanoo.

Julkaistu: 30.4. 2:00, Päivitetty 30.4. 6:22

Koronaepidemian aikana lähes jokainen meistä törmää viruksesta kertoviin tilastoihin päivittäin. Luemme, tulkitsemme ja jaamme niitä eteenpäin, vaikka emme välttämättä tiedä tilastotieteestä paljoakaan.

Aalto-yliopiston tilastotieteen apulaisprofessori Pauliina Ilmoselle koronatilastojen tulkitseminen on kuitenkin täysipäiväistä työtä. Hän johtaa tutkimusryhmää, joka laskee koronaviruspotilaiden määriä Suomessa ja laatii mallinnuksia viruksen leviämisestä.

Mallinnusten, ennusteiden ja tilastojen tulkinta ei ole helppoa työtä tutkijoillekaan. Varmaa on, että virheitä sattuu – niin tavallisille tallaajille kuin asiantuntijoillekin. HS pyysi Ilmosta kertomaan yleisimmistä tilastoiden tulkinnan vaaranpaikoista osana Suomi auttaa -kampanjaa.

”Ihmiset ovat keskimäärin fiksuja, mutta jos aihepiiri ei ole tuttu, virheitä tietysti voi sattua helpommin. Mutta ehkä tilanteessa on jotain hyvääkin: toivottavasti koronatilanne saa ihmiset huomaamaan, miten jännittäviä tilastot ovat”, Ilmonen sanoo.

 Kiinan tai Italian koronatartunta-, toipumis- tai kuolleisuustilastoja ei voi suoraan verrata Suomeen.

Ensimmäinen yleinen virhe liittyy tilastojen otoksiin. Tilastoja tulkitessa on tärkeää tietää, että otos on kattava siihen tarkoitukseen, johon sitä käytetään. Useimmiten paras otos olisi satunnaisotos, mutta siihen voi olla vaikeaa päästä. Yksinkertainen satunnaisotos poimitaan arpomalla, vaikkapa lappuina hatusta.

Hyviä esimerkkejä otoksen vinoutumisesta ovat netissä tehtävät kyselyt, Ilmonen kuvaa. Jos uutissivusto tekee lukijoilleen kyselyn siitä, pitäisikö koulut avata loppulukukaudeksi, kyselyyn vastaavat eivät edusta koko Suomen kansaa vaan sivuston lukijoita. Lisäksi voi olla, että koulua koskevaan kyselyyn vastaavat ne, joiden elämää asia erityisesti koskettaa. Kyseessä ei siis ole satunnaisotos.

Samankaltaisia otosvinoumia voi sattua myös koronaepidemiaa tulkittaessa. Koronaviruksen yhteydessä puhutaan paljon siitä, kuinka suuri määrä populaatiossa on jo saanut tartunnan.

”Jos tämän laskemiseen käytetään testattujen määrää ja lasketaan siitä koronatapausten prosenttimäärä, niin pieleenhän se menee. Testatuilla on jo joitain oireita, eli heillä on enemmän koronaa kuin muilla. Kyseessä ei ole satunnaisotos”, Ilmonen selittää.

Toisekseen kannattaa olla tarkkana siinä, mihin tiettyä otosta vertaa. Vaikka kyseessä olisi satunnaisotos, se ei automaattisesti tarkoita, että siitä voidaan tehdä vedenpitäviä johtopäätöksiä suhteessa muihin satunnaisotoksiin.

”Jos otan satunnaisotoksen ugandalaisia, mittaan heidän pituutensa ja lasken siitä keskiarvon tai mediaanin, en voi käyttää sitä sen arviointiin, mikä on suomalaisten keskipituus”, Ilmonen kuvaa.

Myös koronavirusta koskevissa tilastoissa otos on tärkeässä roolissa, kun eri maita vertaillaan keskenään. Kiinan tai Italian koronatartunta-, toipumis- tai kuolleisuustilastoja ei voi suoraan verrata Suomeen, sillä ikärakenne, kansanterveys ja asumisolosuhteet ovat maissa erilaisia.

 ”Koronan suhteen on hirveän oleellista se, kuinka pitkään keskimäärin teho-osastolle joutuneet joutuvat olemaan siellä.”

Isossa roolissa tilastotieteessä on keskimääräisyyden mittaaminen. Sanaa viljellään uutisjutuissa ja kahvipöytäkeskusteluissa, mutta aina ei ole selvää, mitä sillä tarkoitetaan.

”Miten me mittaamme keskimääräisyyttä? Mitä tarkoitetaan keskimääräisyydellä – keskiarvoa vai mediaania? Millainen on jakauma, josta keskimääräisyys lasketaan?” Ilmonen listaa.

Onkin tärkeää miettiä, mitä tietty suure kertoo nimenomaan mitattavasta asiasta. Oivana esimerkkinä termin harhaanjohtavuudesta on keskiarvoinen suomalainen: hän on vajaan kahden lapsen vanhempi, kohtalaisen koulutettu ja puoliksi nainen, puoliksi mies.

”Tyypillinen suomalainen ei kuitenkaan ole puoliksi nainen ja puoliksi mies, vaikka keskivertosuomalainen sellainen onkin. Tässä tilanteessa voisi olla parempi raportoida prosenttiosuudesta miehistä, naisista ja muista”, Ilmonen kuvaa.

Korona-aiheissa keskimääräisyys tulee esille erityisesti hoitojaksoista puhuttaessa.

”Koronaviruksen suhteen on hirveän oleellista se, kuinka pitkään keskimäärin teho-osastolle joutuneet joutuvat olemaan siellä”, Ilmonen sanoo.

Keskimääräisiä hoitoaikoja ei voi esimerkiksi tuoda suoraan Suomeen muista maista, sillä ikärakenne, kansanterveys ja hoito-olosuhteet voivat vaihdella. Kun mietitään tehohoitopaikkojen riittävyyttä, on tärkeää pohtia, onko keskiarvo lukuna riittävän hyvä riskianalyysin tekoon, Ilmonen muistuttaa.

Mediaani tarkoittaa suuruusjärjestyksessä keskimmäistä lukua. Kun jakauma on vino, mediaani kuvaa yleensä keskimääräisyyttä paremmin kuin keskiarvo. Jos jakauma on tasainen, keskiarvo ja mediaani ovat lähellä toisiaan.

Jos esimerkiksi valtaosa potilaista on osastolla viikon, mutta pieni osa kuukauden, jakauma on vino. Pitkän ajan osastolla viettävät heilauttavat keskiarvon mediaania korkeammalle. Silloin keskiarvo ei kuvaa todellisuutta kovinkaan hyvin.

”Kaiken kaikkiaan on kuitenkin hyvä ottaa huomioon, että osa viettää osastolla pitkän aikaa”, Ilmonen sanoo.

 Jos tartuntamäärä on lauantaina huomattavasti vähäisempi kuin edellispäivinä, ei se välttämättä tarkoita, että tartunnoissa olisi tapahtunut muutos.

Tilastoja tulkitessa kannattaa pitää myös mielessä niiden raportointi ja tilanne numeroiden takana.

”Tartunnan määrittely voi vaihdella eri maissa. Tartuntatilastot riippuvat myös testauksen määrästä”, Ilmonen muistuttaa.

Tilastoa lukiessa on tärkeää tarkistaa, voiko tilasto päivittyä. Varsinkin koronatilastoja tulkitessa esimerkiksi tartunnat ja kuolemat voivat päivittyä viiveellä.

Myös viikonpäivillä voi olla merkitystä. Jos tartuntamäärä on lauantaina huomattavasti vähäisempi kuin viitenä edellispäivänä, ei se välttämättä tarkoita, että tartunnoissa olisi tapahtunut muutos.

Samoin myöskin maanantaina pompannut tartuntaluku voi olla peruja viikonlopulta.

”Välillä voi myös tulla tosi isoja kirjauskönttejä, mikä on ymmärrettävää, koska meillä on käsillä kesken oleva epidemia, joka ei ole samalla tavalla hoidossa kaikkialla”, Ilmonen sanoo.

 Jos moni rajoitus on aloitettu samaan aikaan, voi olla haastavaa todistaa, mikä seuraus johtuu mistäkin rajoituksesta.

Viimeisin muttei vähäisin tyypillinen ongelmakohta on syy-seuraussuhteen tulkinta. Tilastotieteessä puhutaan regressioanalyysistä, jonka avulla tarkastellaan vastemuuttujan riippuvuutta selittävistä muuttujista. Funktiot eivät välttämättä ole lineaarisia eli suoraviivaisia, vaan muuttujien yhteys voi olla monimutkaisempi.

Maallikkokielellä sanottuna tilastoista voi saada väärän käsityksen siitä, että niissä esitetyillä asioilla olisi tietty yhteys.

Tilastosta voi esimerkiksi käydä ilmi yhteys muuttuja a:n ja muuttuja b:n välillä. Mutta onko varmaa, että juuri b aiheuttaa a:n, vai voiko a sittenkin aiheuttaa b:n? Vai onko mahdollista, että on olemassa muuttuja c, joka aiheuttaa yhteyden, mutta joka puuttuu tilastosta?

”Me näemme korrelaation, mutta emme tiedä, mihin suuntaan kausaatio kulkee”, Ilmonen summaa.

Tämän takia myös esimerkiksi johtopäätösten vetäminen koronarajoitustoimien tehosta voi olla hankalaa. Jos moni rajoitus on aloitettu samaan aikaan, voi olla haastavaa todistaa, mikä seuraus johtuu mistäkin rajoituksesta.

Tilastoja on siis totisesti helppo tulkita pieleen. Mutta voivatko käyrien virheelliset tulkinnat olla korona-aikana jopa vaarallisia, jos tulkinnat pääsevät määrittämään julkista keskustelua?

Ilmonen ei usko siihen. Jos tekee julkisessa keskustelussa erheellisen päätöksen, joku kyllä korjaa sen, Ilmonen sanoo.

Ilmosesta on päinvastoin hyvä asia, että niin maallikot, tutkijat kuin päättäjätkin pääsevät käsiksi tietoon ja tilastoihin ja voivat esittää niiden pohjalta omia johtopäätöksiään.

”On hirvittävän hyvä asia, että katsotaan samoja asioita eri näkökulmista. Meillä on sananvapaus voimassa myös rajoitusten aikana. Ei se sillä lailla mene, että tieto olisi tutkijoiden tai päätöstentekijöiden yksityistä omaisuutta. Tieto kuuluu kaikille.”

Tärkeintä on myöntää virheensä, jos sellainen omista johtopäätöksistä osoitetaan esiin.

”Me asiantuntijatkin teemme erheellisiä johtopäätöksiä. Ei ole ihme, jos joku, jolle nämä asiat eivät ole tuttuja, tekee virheen”, Ilmonen toteaa.

 ”Koronaennusteissa puhutaan paljon siitä, miten ne ovat menneet pieleen. Totta kai ne menevät pieleen!”

Ilmonen peräänkuuluttaakin ymmärrystä myös asiantuntijoiden ja päättäjien tekemille virheille. Jos asioista joudutaan ottamaan selvää hyvin nopealla aikataululla ja päätöksiä täytyy tehdä pikaisesti, tieto ei takuulla ole täydellistä.

”Kun kaikkea tarvittavaa tietoa ei mallinnuksia varten vielä ole, niin on ihan selvää, että virheitä tulee. Koronaennusteissa puhutaan paljon siitä, miten ne ovat menneet pieleen. Totta kai ne menevät pieleen! Mutta jatkuvasti saadaan aikaan parempia ennustuksia, kun virheistä opitaan”, Ilmonen toteaa.

Mallinnusrumban ja mediamylläkän keskipisteessä olo on koronakriisin kanssa työskenteleville asiantuntijoille raskasta.

”Olen matemaatikko, ja rakastan kaavojani. En jaksa odottaa, että tilanne palaa normaaliin ja pääsen taas omaan kammiooni laskemaan kaavoja”, Ilmonen huokaa.

Vaikka ennusteet eivät aina osuisikaan oikeaan, varmaa on, että niistä on koko poikkeustilan ajan saatu valtavasti apua päätöksentekoon.

”Hyvin harvoin meillä on täydellistä mallia, mutta epätäydelliset mallit ovat todellisuudesta parhaita arvioita, mitä pystymme tekemään”, Ilmonen sanoo.

Antoipa ennuste arvioksi ison tai pienen todennäköisyyden, on se silti paljon parempi kuin tehdä päätöksiä sokkona, Ilmonen huomauttaa.

”Jos meillä ei olisi tilastoja Kiinasta, Italiasta ja Espanjasta ja emme olisi niiden perusteella laittaneet rajoitteita, uskon, että olisimme nyt todella paljon pahemmassa tilanteessa.”

Luitko jo nämä?

Luetuimmat - Elämä & Hyvinvointi