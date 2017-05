Nyt.fi

Laita oma nimesi Google-kääntäjään ja yritä kääntää se suomesta englanniksi.Saitko tulokseksi jotain hauskaa, kuten tämän jutun kirjoittaja:Vai oliko tulos ihan normi, kuten kollegalla:Osassa tapauksissa Google kääntää suomalaiset nimet (usein ihan hassuin tuloksin), osassa taas ei.Soitimme Tuukka Ruotsalolle http://www.hs.fi/haku/?search-term=Tuukka%20Ruotsalolle , Helsingin yliopiston tietojenkäsittelytieteen laitoksen tutkijatohtorille. Ruotsalo on ollut mukana tekemässä suomalaista Scinet-hakukonetta.Google ei tunnetusti paljasta tarkkoja konekääntämisen toimintamekanismeja, joten Ruotsalo voi arvioida vain ylimalkaisesti toimintaa.Hänen mukaansa kyse on kolmesta asiasta:”Erisnimien tunnistaminen on vanha luonnollisen kielen käsittelyn ongelma näille järjestelmille”, sanoo Ruotsalo.”Iso alkukirjain on yksi piirre, josta kone oppii tunnistamaan nimen.”Iso alkukirjain nimessä on kieliopillisesti oikein. Kun kääntäjään kirjoittaa nimen pienellä, se ei välttämättä tunnista sitä nimeksi vaan yrittää etsiä uuden käännöksen.”Jos otat kaikki olemassaolevat suomenkieliset dokumentit, nimi ’Jutta’ esiintyy siellä paljon harvemmin ja erilaisemmissa konteksteissa kuin vaikka sana ’pöytä’”, Ruotsalo sanoo.Vielä kymmenen vuotta sitten Google-kääntäjän kaltaisia konekääntäjiä paranneltiin syöttämällä niihin erilaisia esimerkkejä siitä, millainen jonkun kielen, kuten suomen, kielioppi on.Nykyiset käännöskoneet oppivat itse tekstimassasta ja ne ovat parantuneet Ruotsalon sanoin ”huikean paljon” viime vuosina. Valtavasta datamäärästä Google-kääntäjä oppii ymmärtämään pikku hiljaa erilaisia kielten rakenteita.Tästä päästään kolmanteen kohtaan:”Konekääntämisessä käytetään niin sanottuja syviä neuroverkkoja, jotka oppivat kontekstia”, Ruotsalo sanoo.Mitä enemmän kontekstia eli lauseita ympärillä on, sitä paremmin käännettävän lauseen pystyy hahmottamaan ja sitä parempia ehdotuksia Google-kääntäjä antaa.”Kun laitetaan lyhyitä lauseita, sitä kontekstia on hirveän vähän.”Sitten tulee kaikenlaisia hassuuksia, kuten kollegani saama:”Täysin satunnaista se ei ole, mutta mikä sen selittää, se on monimutkainen asia”, Ruotsalo sanoo.Erityistapauksia ovat tietysti suomalaiset nimet, jotka ovat sekä substantiiveja että erisnimiä, sanoo Tuukka Ruotsalo. Kuten Meri, Taika, Arvo, Voitto, Veli, Pyry tai Lahja.”Näissä tapauksissa on helpompi ymmärtää, miksi kone kääntää nimet, jos ne ovat pienellä.”Miksi ihmiset ovat saaneet eri tuloksia jos he ovat kääntäneet nimen myöhemmin uudelleen?Yksi selitys voi olla se, että Google-kääntäjä oppii koko ajan siihen syötetystä datasta. Kun käyttäjät ovat korjanneet tuloksia, muutokset voivat näkyä tulevissa hauissa.