Koronavirusepidemian seuranta kaipaa lisädataa - Mielipide | HS.fi
Mielipide|Vieraskynä

Koronavirusepidemian seuranta kaipaa lisädataa

Suomeen suunnitellulla koronaviruksen jäljityssovelluksella pitäisi kerätä anonyymia tilastotietoa, jonka avulla voidaan ennakoida epidemian kehitystä.

Julkaistu: 1.6. 2:00

Suomi on monien muiden maiden ohella siirtynyt vaiheeseen, jossa koronaviruksen leviämisen estämiseksi asetettuja rajoituksia on alettu purkaa. Samalla viruksen leviämistä seurataan yhä tarkasti.

Epidemian etenemistä seurataan matemaattisilla malleilla, jotka sovitetaan todettujen tartuntojen määrään. Koska tartunnan saamisesta sen toteamiseen kuluu yleensä noin viikko tai pitempään, seuranta kuvastaa tartuntatilannetta viipeellä.

Koronavirustartunta leviää ensisijaisesti sairastuneen ja tartunnalle altistuneen riittävän pitkäkestoisen ja voimakkaan lähikontaktin aikana. Suomessa valmistellaan nyt mobiilisovelluksen käyttöönottoa tällaisten kontaktien jäljittämisen avustamiseksi.

Sovelluksen käyttäjien yksityisyyden turvaamiseksi on suunniteltu, että sovellus jakaisi keräämäänsä tietoa ainoastaan siinä tapauksessa, että sovelluksen käyttäjällä on todettu koronavirustartunta. Tällöin tartunnalle altistuneet saisivat sovelluksen kautta tiedon asiasta. Suunnitelmien mukaan sovellus ei keräisi muuta tietoa käyttäjistään.

Moni ei kuitenkaan tiedä, että sovelluksen havaitsemista käyttäjien – myös niiden, jotka eivät seurannan aikana altistu koronavirukselle – kontakteista kertyy tilastotietoa, josta olisi apua epidemiaa mallinnettaessa.

Epidemian tilastollisessa mallinnuksessa on tärkeää tietää, kuinka yleisiä virustartunnalle periaatteessa otolliset kontaktit ovat väestön keskuudessa. Mallinnusta varten tarvitaan siis tietoa niistäkin kontakteista, joissa viruksen ei epäillä tarttuneen ihmisestä toiseen.

Sosiaalisen etäisyyden pitämisellä ja rajoitustoimilla on pyritty vähentämään tällaisten kontaktien määrää, ja sovelluksesta kerättävällä tilastotiedolla voidaan seurata kontaktien määrän kehitystä ja ihmisten käyttäytymisen muutoksia.

Euroopassa kontakteja jäljitettäessä on haluttu varjella tarkoin tietosuojaa ja yksityisyyden suojaa. Kontaktien määrää koskevaa tilastotietoa voidaan silti kerätä tietosuojasta oleellisesti tinkimättä.

Tässä voidaan hyödyntää algoritmia, joka muuttaa satunnaisesti käyttäjän toiminnasta kerättyjä tietoja ennen niiden lähettämistä. Silloin mihinkään ei jää dataa, jonka perusteella voitaisiin seurata yhdenkään yksittäisen käyttäjän toimintaa. Sovelluksen käyttäjältä on silti syytä pyytää vapaaehtoinen suostumus tietojen lähettämiseen.

Tätä menetelmää käytettäessä algoritmin muuttamien tietojen vaikutus tuloksiin voidaan poistaa, kun vastauksia kerätään riittävän suuri joukko ja tulokset yhdistetään. Tilastotieteen menetelmiä käyttäen saadaan luotettava arvio siitä, miten paljon seurattavia lähikontakteja ihmisillä on todellisuudessa ollut.

Tietojenkäsittelytieteissä satunnaisuuden lisäämisen periaatetta on kehitetty differentiaalisen tietosuojan nimellä. Alaa tutkitaan Suomen tekoälykeskuksessa (FCAI), jossa johdan yksityisyyden turvaavan tekoälyn tutkimusta.

Tutkijat ovat kehittäneet erilaisia menetelmiä, jotka kunnioittavat tietosuojaa. Suojan tasoa voidaan säätää satunnaisuuden määrää muuttamalla – tulokset ovat tosin sitä epätarkempia, mitä vahvempi suoja on. Samankaltaiset menetelmät ovat jo laajasti käytössä muun muassa Googlen ja Applen mobiilikäyttöjärjestelmissä sekä Yhdysvaltojen tämänvuotisessa väestölaskennassa.

Suunnitellut sovellukset vaihtavat tietosuojasyistä joka tapauksessa käyttäjien yksilöimisessä käytettyjä tunnisteita noin puolen tunnin välein. Niinpä koronavirustartunnalle mahdollisesti altistaneiden lähikontaktien määrää kannattaa seurata tätä lyhyemmillä aikaväleillä.

Vapaaehtoisuuteen perustuen käyttäjiltä voidaan lisäksi pyytää mallinnuksen avuksi esimerkiksi heidän ikäänsä tai kotimaakuntaansa koskevaa lisätietoa.

Koronavirustartuntojen jäljittäminen sovelluksen avulla edellyttää, että sovellusta käyttää suuri osa väestöstä.

Anonyymin tilastotiedon avulla epidemian mallinnuksen pohjaksi saataisiin koko väestöä koskevaa informaatiota, jonka puutteita voidaan korjata tilastotieteen avulla. Silloin hyödyllistä tietoa saadaan siinäkin tapauksessa, että sovelluksen käyttäjämäärät jäävät asetetuista tavoitteista.

Antti Honkela

Kirjoittaja on koneoppimisen ja tekoälyn apulaisprofessori Helsingin yliopistossa.

Vieraskynät ovat asiantuntijoiden puheenvuoroja, jotka HS:n toimitus on valinnut julkaistaviksi. Vieraskynissä esitetyt mielipiteet ovat kirjoittajien omia näkemyksiä, eivät HS:n kannanottoja. Kirjoitusohjeet: www.hs.fi/vieraskyna/.

Luetuimmat - Mielipide

Luitko jo nämä?