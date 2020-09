Kokeen toistettavuuden luulisi olevan merkki sen toimivuudesta. Tilastollisia menetelmiä käytettäessä asiat ovat mutkikkaampia.

Maailman ehkä kuuluisin tieteellinen koe tehtiin Pisassa vuosien 1500-luvun lopulla. Siinä tähtitieteilijä Galileo Galilei osoitti, että kaikki kohteet, painosta riippumatta, putoavat samalla nopeudella.

Luultavimmin Galilei ei pudottanut kappaleita Pisan kaltevasta tornista vaan käytti mittauksiin kaltevia pintoja pitkin vieritettyjä eripainoisia kuulia.

Koe on sittemmin toistettu tuhansia ja taas tuhansia kertoja. Jos koe on tehty oikein, on tulos ollut joka kerta sama.

Arkijärjellä ajateltuna tieteellisen kokeen oikeellisuuden todistaa juuri toistettavuus. Kun sama koe tehdään uudelleen, siitä on lupa odottaa samaa lopputulosta.

Mutta useimmin se ei mene näin, kertoo tilastotieteilijä Juha Lappi.

”Fysiikassa asia menee noin, mutta suurin osa tieteestä ei ole fysiikkaa”, hän huomauttaa. Eläkkeellä oleva Lappi on juuri kirjoittanut Itä-Suomen yliopiston professori Lauri Mehtätalon kanssa uuden tilastotieteen oppikirjan.

Kun tutkitaan ihmisten käyttäytymiseen, lääketieteeseen, psykologiaan, biologiaan tai ekologiaan liittyviä asioita, kohteena on monimutkaisia ilmiöitä, joilla voi olla valtavasti taustatekijöitä. Parhaaseenkin kokeeseen saadaan vain pieni otos koko kohteesta.

”Identtisissä kokeissa saattaa tulla samoja tuloksia, mutta saattaa olla tulemattakin”, Lappi tiivisti mielipidekirjoituksessaan Helsingin Sanomissa heinäkuussa.

”Saman tuloksen odottaminen samasta kokeesta on kuin odottaisi kolikon putoavan aina sama puoli alaspäin. Todellisuudessa osa kokeista antaa aina eri tuloksen, vaikka ne kuinka olisi tehty oikein ja samalla tavalla.”

Lapin väite saattoi kuulostaa oudolta, joten pyysimme selitystä. Väitteen ymmärtäminen vaatii hieman tilastotieteen ymmärtämistä.

Otetaan vaikka verenpaine­lääketesti, jossa pyritään selvittämään, alentaako testattava lääke verenpainetta.

Mikään lääke ei toimi aina. Potilaiden oloissa ja muussa terveydentilassa on kaikenlaisia poikkeamia. Jonkun verenpaine laskee aina ilman lääkettäkin.

Siksi lääkkeen tehoa testataan niin sanottua nollahypoteesia vastaan. Eli otetaan oletukseksi, että verenpaine pysyy keskimäärin samana lääkettä saaneilla ja saamattomilla.

Nollahypoteesi voidaan hylätä, jos kokeesta saadaan tulos, joka olisi epätodennäköinen, mikäli lääkkeellä ei ole vaikutusta.

Ongelmaksi jää kuitenkin se, miten suuri ero kokeen tuloksen ja nollahypoteesin välille tarvitaan nollahypoteesin hylkäämiseksi.

Tässä avuksi tulee tilastollinen työkalu nimeltä merkitsevyystaso.

Sillä tarkoitetaan sitä, kuinka usein koe saa tuottaa virheellisen positiivisen tuloksen, mikäli nollahypoteesi on tosi.

”Periaatteessa merkitsevyys­taso on valittavissa niin pieneksi kuin halutaan”, Lappi kertoo.

Tilastollisessa kokeessa satunnaisvaihtelu on aina läsnä. Mitä alemmas merkitsevyystaso lasketaan, sitä vankempaa näyttöä vaaditaan tuloksen erottamiseksi satunnaisvaihtelusta.

Tälle on kuitenkin hintansa. Merkitsevyystason lasku laskee myös kokeen voimakkuutta.

Kokeen voimakkuudella tarkoitetaan sitä todennäköisyyttä, että väärässä oleva nollahypoteesi hylätään, eli esimerkiksi lääkkeen havaitaan todella alentavan verenpainetta.

Voimakkuuteen vaikuttavat merkitsevyystason lisäksi kokeen otoskoko, testatun vaikutuksen suuruus ja satunnaisvaihtelun koko.

Verenpainelääkekokeessa testin voimakkuuteen vaikuttavat siis se, kuinka paljon väkeä testiin osallistuu, kuinka tehokas testattu lääke on ja kuinka paljon ihmisten verenpaine sattuu lääkkeestä riippumatta vaihtelemaan.

Näiden lisäksi siihen vaikuttaa valittu merkitsevyystaso.

Nopeasti ajateltuna tekisi mieli vaatia mahdollisimman tiukkaa merkitsevyystasoa, mutta käytännössä tämä romauttaisi kokeen voimakkuuden.

Edes tehokkaan lääkkeen toimivuutta ei havaittaisi satunnaisvaihtelun alta.

Jos ajatellaan, että lääkkeen vaikutus on todellinen mutta hyvin pieni, testin voimakkuus voi jäädä esimerkiksi 6 prosenttiin. Silloin 94 prosenttia kokeista antaa virheellisen tuloksen, jonka mukaan vaikutusta ole.

Eräänlaiseksi standardiksi tieteellisissä kokeissa on muodostunut vaatimus viiden prosentin merkitsevyystasosta.

Tämän tason ylittävää tulosta sanotaan tilastollisesti merkittäväksi. Se tarkoittaa, että jos esimerkiksi testatulla lääkkeellä ei ole vaikutusta, se havaitaan oikein 95 prosentissa kokeita.

”On yleinen harhaluulo, että tilastollisesti merkitsevä tulos tarkoittaisi tuloksen olevan voimakas tai merkittävä”, Lappi huomauttaa.

Sitä se ei tarkoita. Se tarkoittaa yksinkertaisesti, että saatu tulos on epätodennäköinen, jos nollahypoteesi olisi tosi.

Jäljelle jää kuitenkin viisi prosenttia kokeista. Niiden kohdalla merkitsevyystaso tuottaa niin sanottuja vääriä positiivisia, eli tuloksia, joiden mukaan nollahypoteesi hylätään pelkän satunnaisen vaihtelun ansiosta, vaikka todellista vaikutusta ei ole.

Ongelma pahenee, jos merkitsevyystasoa nostetaan.

Liian löysäksi määritelty merkitsevyystaso voi saada tehottomankin lääkkeen näyttämään tehokkaalta, jos testiryhmän keskimääräinen verenpaine laskeekin sattumalta omia aikojaan.

Mutta kireässäkin merkitsevyystasossa on ongelmansa. Tilanne on hankala esimerkiksi silloin, kun testattu vaikutus on pieni, esimerkiksi lääke laskee verenpainetta, mutta keskimäärin vain vähän. Silloin kokeen voimakkuus jää pieneksi, eikä nollahypoteesia voida kumota.

Edes kokeiden määrän lisääminen ei suoraan auta, sillä uusi koe tuottaa todennäköisesti samanlaisen tuloksen olemattomasta tehosta. Kokeen voimakkuutta voidaan kuitenkin kasvattaa suurentamalla otoskokoa.

” Tieteellisissäkin testeissä olisi parempi puhua mielipidetiedustelujen tapaan virhemarginaaleista.

Suuremmaksi ongelmaksi on viime aikoina koettu nollahypoteesitestauksen aiheuttamat väärät positiiviset tulokset.

On puhuttu paljon esimerkiksi psykologian alan kokeista, joissa on havaittu jokin yllättävä ilmiö, esimerkiksi ihmisen kävelyn hidastuminen sen jälkeen, kun hänelle on näytetty vanhuuteen liittyviä sanoja.

Tällaiset kokeet ovat tyypillisesti pieniä ja halpoja, joten niitä on helppo tehdä paljon. Tämä tarkoittaa, että joukkoon tulee myös vääriä positiivisia.

Jo vuonna 2015 Science News kutsui nollahypoteesitestausta tieteen dopingiksi, joka loi tyhjästä merkityksiä sinnekin, missä niitä ei todellisuudessa ollut.

Eli esimerkiksi havainto kävelyn hidastumisesta perustui ilmeisesti vain satunnaisvaihteluun, eikä sitä onnistuttu toistamaan myöhemmin.

Erityisen alttiita tälle ovat aineistot, joissa tutkitaan monia muuttujia yhtä aikaa.

Jos vaikka kartoitetaan erilaisten persoonallisuuspiirteiden yhteyksiä kaikkeen mahdolliseen nukkumisesta ruokavalioon, lasten määrään ja elinikään, löytyy aineistosta tilastollisella vääjäämättömyydellä myös puhtaasti sattumanvaraisia yhteyksiä.

Tilastotieteellä on keinoja tarttua asiaan, kuten usean nollahypoteesin testaus yhtä aikaa. Science News on vaatinut jopa koko nollahypoteesitestauksesta luopumista.

Lappi puolestaan ehdottaa, että nollahypoteesitestauksessa käytetyn tiukan kahtiajaon sijasta tieteellisissäkin testeissä olisi parempi puhua mielipidetiedustelujen tapaan virhemarginaaleista. Tämä toisi paremmin esiin tuloksiin mahdollisesti liittyvät epävarmuudet.

” ”Kokeiden epävarmuudet on aina hyvä pitää mielessä.”

Väärien positiivisten kohdalla ongelmaksi tulee myös tieteellisen julkaisemisen logiikka.

Koska tieteellisiä julkaisuja kiinnostavat usein yllättävät ja erikoiset tulokset, on tutkijoilla usein paine julkaista nämä erikoiset löytönsä.

Jos tehdään vaikka kaksikymmentä koetta ja niistä yhdestä tulee yllättävä tulos, tutkijalla voi olla kiusaus lähettää se eteenpäin. Hän voi jopa uskoa itsekin löytäneensä jotain jännittävää.

Tästä seuraa julkaisuharhaksi kutsuttu tilanne, jossa tilastollisiin menetelmiin pakosta kuuluvia virheellisiä positiivisia tuloksia uutisoidaan uusina löytöinä.

”Tässä kohden toivoisin tutkijoilta malttia. Kannattaa aina miettiä, millä todennäköisyydellä aineistoa analysoimalla löytyy myös vääriä positiivisia. Jos jokin tulos vaikuttaa liian jännittävältä, se hyvinkin voi olla sitä.”

Lappi kehottaa muistamaan, että valittu merkitsevyystaso kertoo myös väärien positiivisten määrän.

Julkaisuharha on johtanut toistettavuuskriisiksi kutsuttuun ilmiöön, jossa monia tutkimuskirjallisuuteen hyväksyttyjä kokeita ei ole myöhemmin saatu toistettua samoin tuloksin.

Kyynisimmillään on arvioitu, että jopa puolet julkaistuista tuloksista olisi esimerkiksi psyko­logian alalla näin heikoissa kantimissa.

Lappi myöntää tilanteen hankaluuden, mutta muistuttaa, ettei epäonnistunut toisto silti sekään välttämättä tarkoita alku­peräisen tuloksen olleen väärä. Jos testin voimakkuus on pieni, todellinen vaikutus jää usein havaitsematta.

Edes vaikutuksen havaitseminen aineistossa, jossa sitä ei todellisuudessa ole, ei tarkoita kokeen olleen väärin tehty tai tulkittu.

Kyse voi olla vain tilastollisen menetelmiin sisältyvästä epävarmuudesta.

”Johtopäätöksiä tehtäessä kokeiden epävarmuudet on aina hyvä pitää mielessä. Tilastolliset menetelmät tuottavat joskus vääriä tuloksia, vaikka kokeen olisi tehnyt kuinka hyvin.”