Valikko
Teknologia

”Jussi liikkui suolla, pysähteli” – Muokkasimme Väinö Linnan klassikkokirjan alun sellaiseen muotoon, että Google Translate osaa kääntää sen

Täällä Pohjantähden alla on aivan liian vaikea koneen käännettäväksi. Testasimme, millaista kieltä Google Translate osaisi kääntää.

Alussa olivat suo, kuokka – ja Jussi.

Näin alkaa Väinö Linnan tunnettu kolmeosainen romaani Täällä Pohjantähden alla. Sen ensimmäinen virke on jo itsessään klassikko. Lause on selkeä ja jämäkkä kuin torpparin ensimmäinen kuokanisku sammaleeseen.

Sen ymmärtää jopa tietokone.

”In the beginning there were the swamp, the hoe and Jussi.”

Näin muuntaa käännössivusto Google Translate virkkeen englanniksi. Käännös on kutakuinkin oikea.

”Kyllä tästä ymmärtää, mistä puhutaan”, sanoo konekäännöksiin perehtynyt väitöskirjatutkija Maarit Koponen Helsingin yli­opistosta.

Alku on lupaava. Heti seuraavassa virkkeessä homma meneekin jo päin seiniä.

Olemme ryhtyneet hankkeeseen, joka tuntuu ennakkoon hieman arveluttavalta.

Aiomme testata, kuinka hyvin Google Translate osaa kääntää englanniksi Pohjantähti-trilogian alun – tarkemmin sanottuna kuusi ensimmäistä virkettä.

Aiomme myös selvittää, missä kulkee konekääntimen kykyjen raja: editoimme Linnan tekstiä yksinkertaisemmaksi, kunnes kone osaa kääntää tekstin siedettävällä tarkkuudella oikein.

Epäilemme, että Linnan alkuperäinen proosa on Googlelle liikaa. Kaunokirjalliseen teokseen kajoaminen tuntuu puoskaroinnilta, mutta tarkoitus on hyvä.

Etsimme vastausta tähän kysymykseen: millaista kieltä pitäisi kirjoittaa, että kone osaisi kääntää sen?

Käytämme testiaineistona Linnan Pohjantähden alkua. Sen kääntäminen on vaikea tehtävä, mutta haluamme todella testata, missä kulkee koneen osaamisen raja.

Internet on tuonut automaattiset kielenkääntimet kaikkien ulottuville. Verkossa on monia sivustoja, jotka kääntävät tekstiä napinpainalluksella kielestä toiseen. Niitä ovat kehittäneet yritykset ja yliopistotutkijat.

Tunnetuin käännössivusto on ilmaispalvelu Google Translate, joka muuntaa minkä tahansa tekstin suomesta englanniksi, saksaksi, japaniksi, hepreaksi tai jollekin muulle vieraalle kielelle tai toiseen suuntaan suomeksi.

Valikoimassa on yhdeksänkymmentä kieltä. Se on enemmän kuin vaikkapa Microsoftin kehittämällä kilpailevalla Bing-kääntimellä.

Näiden sivustojen käännökset eivät ole lähellekään samaa tasoa kuin ihmisten tuottamat. Ammattikääntäjien työhön niitä ei kannattaisi edes verrata. Niistä voi kuitenkin saada käsityksen vieraskielisen tekstin asiasisällöstä.

Laatu myös paranee vuosi vuodelta.

”Olen käyttänyt luennoilla erilaisia esimerkkejä siitä, missä asioissa konekääntimet tekevät virheitä. Monia parin kolmen vuoden takaisia esimerkkejä en enää voi käyttää, koska esimerkiksi Googlen käännös on ny­kyään aivan erilainen”, sanoo konekäännösten laatua työkseen tutkiva Koponen.

Kaunokirjallisuuden kääntäminen on kuitenkin koneelle erityisen vaikeaa.

Se ilmenee karvaasti, kun syötämme Pohjantähden toisen virkkeen käännöskoneeseen.

”Suo oli autio, keskeltä melkein puuton neva, jonka veden vaivaamasta kamarasta nousi vain jokin kitukasvuinen käkkyrämänty, vahvakaarnainen ja tasalatvainen pieni vanhus.”

Näin teksti kääntyy:

”Swamp was deserted, almost treeless bog in the middle, which the rind to trouble the water rose only a stunted käkkyrämänty, strong bark and balanced crowned a small old man.”

Käännöksen alku on järkevä, mutta sen keskiosa ja loppu ovat täyttä dadaa.

”Merkitys katoaa ihan kokonaan”, Koponen sanoo.

Miten käännös oikein on syntynyt?

Google Translate ei yritä kääntää tekstiä kielioppisääntöjen perusteella. Se ei edes tiedä suomen kieliopista mitään.

Sen sijaan se käyttää tilastollisen kielenkääntämisen menetelmää.

Kääntimelle on annettu lähdeaineistoksi tekstejä, jotka ihmiset ovat kääntäneet eri kielille. EU-komission viralliset monikieliset dokumentit, kodinkoneiden käyttöohjeet, patentit, kirjat, sanomalehtijutut sekä Wikipedia-artikkelit ovat tyypillistä konekääntimen ruokaa.

Se käyttää hyväkseen erityisesti ammattikääntäjien aiemmin tekemää työtä.

Uusia käännöksiä tehdessään kone tutkii, mitkä sanat tai sanayhdistelmät useimmiten vastaavat käännettävää tekstiä lähdeaineistossa.

Mitä enemmän ja parempaa lähdeaineistoa, sitä parempia käännöksiä syntyy.

Nyt monet sanat ovat kuitenkin kääntyneet päin honkia.

Kamara viittaa kirjassa maanpintaan, mutta käännös rind tarkoittaa esimerkiksi siankamaraa. Tasalatvaisen käännös on omituinen balanced crowned. Veden vaivaama on muuttunut siansaksaksi ja käkkyrämänty jäänyt suomenkieliseen muotoon.

”Googlen opetusaineisto ei ole ilmeisesti sisältänyt sanaa käkkyrämänty”, Koponen sanoo.

Kitukasvuinen sen sijaan näyttää löytyneen. Sille stunted kelpaa käännökseksi.”

Myös virkkeen rakenne hajoaa pahasti. Käännöskone ei ymmärrä sanojen keskinäisiä viittaussuhteita: keskeltä melkein puuton neva on käännetty muotoon almost treeless bog in the middle, mikä tarkoittaa että suo olisi keskellä jotain.

Eihän kirjailija sitä tarkoittanut.

”Palapelin palaset ovat oikein, mutta ne on kasattu väärin”, Koponen sanoo.

Parinkymmenen sanan virkettä Google Translate ei edes yritä käsitellä yhtenä kokonaisuutena. Se kääntää tekstiä kolmen neljän sanan paloissa. Suo, kuokka ja Jussi on sille jo iso palikka.

Ryhdymme töihin: muokkaamme tekstiä ja testaamme, kuinka konekäännös muuttuu.

Asetamme riman alas. Google Translate ei missään tapauksessa osaa tuottaa hyvää proosaa eikä edes sulavaa asiatekstiä ihmiskirjoittajan mittapuulla. Emme pyrikään siihen. Riittää, että virkkeen asiasisältö välittyy pääpiirteittäin.

Teemme virkkeeseen uusia sivulauseita. Korvaamme käkkyrämännyn sanalla mänty ja poistamme neva-sanan kokonaan. Muutaman välivaiheen kautta päädymme tulokseen:

”Suo oli autio, keskeltä melkein puuton, ja mänty kasvoi suon pinnasta.”

Olemme löytäneet jonkinlaista kovaa maata. Tämä virke kääntyy kutakuinkin oikein. Siinä on kuitenkin harmillinen virhe:

Suo käännetään sanaksi grant.

Olemme tuskastuneita. Linnan alkuperäistä virkettä kään­täessään Google Translate sentään tajusi, että suo on swamp. Kun yksinkertaistimme ja lyhensimme lausetta, konekäännin alkoi jossain vaiheessa luulla, että suo on grant.

”Tämä on kuin yrittäisi naulata hyytelöä seinään”, Koponen sanoo huvittuneena.

Miten suo edes voi olla grant?

Ai niin.

Suoda mahdollisuus, to grant an opportunity. Kone luulee, että kysymys on suoda-verbistä.

Ilmiö kuvaa tilastollisten käännösten satunnaisuutta. Pieni muutos tekstissä keikauttaa käännöksen päälaelleen kaaos­teorian oppien mukaisesti. Google Translate voi myös kääntää saman tekstin hieman eri tavalla eri päivinä.

Työstämme virkettä lisää. Etenemme nyt toiseen suuntaan ja lisäämme virkkeeseen asioita, joita poistimme äsken. Jossain vaiheessa suo-sana muuttuu takaisin muotoon swamp. Emme tiedä, miksi.

Päädymme lopputulokseen:

Suo oli autio, keskeltä melkein puuton, ja vain yksi kitukasvuinen mänty kasvoi suon pinnasta, joka oli veden vaivaama. Kitukasvuinen mänty, vanhus jonka kaarna oli vahva ja latva oli tasainen.

Kielellisesti virke on kalpea varjo Linnan alkuperäisestä lauseesta. Se kuitenkin täyttää tehtävänannon. Konekäännös on tarpeeksi ymmärrettävä:

”Swamp was deserted, almost treeless in the middle, and only one stunted pine tree grew from the peatland surface, which was water-stricken. Stunted pine, old man whose bark was strong and the top was flat.”

Seuraavat virkkeet ovat helpompia.

”Jussi liikkui suolla, pysähdellen, katsellen, tarkkaillen ja arvioiden.”

Virkettä ei tarvitse paljoa editoida, että siitä tulee konekäännettävä:

”Jussi liikkui suolla, pysähteli, katseli, tarkkaili ja arvioi.”

Entäs sitten tämä?

”Hän otti seipään, tarkasti huolellisesti että näkijöitä ei ollut, ja kaivoi sitten sillä kuopan suon pintaan.”

Sanajärjestystä pitää muuttaa ja näkijä vaihtaa silminnäkijäksi, ettei käännöskone luule, että kyseessä on selvännäkijä:

”Hän otti seipään, huolellisesti tarkisti että ei ollut silminnäkijöitä, ja kaivoi sitten sillä kuopan suon pintaan.”

Seuraava virke onkin vaikeampi tapaus.

”Sellaisia kuoppia hän teki useaan kohtaan, mutta aikansa niitä tarkasteltuaan hän peitti ne huolellisesti ja vilkaisi aina välillä ympärilleen aivan kuin jotain peläten.”

Vääntelemme ja kääntelemme tekstiä. Päätämme jakaa sen kahteen palaan:

”Hän teki kuoppia useisiin kohtiin. Mutta tarkasteltuaan niitä jonkin aikaa hän peitti ne huolellisesti ja vilkaisi ympärilleen aina välillä niin kuin pelkäisi jotain.”

Lauseita veivatessa huomaa, että monet suomen kielen piirteet ovat käännöskoneelle vaikeita. Se ei ymmärrä vapaata sanajärjestystä. Se ei tajua, mihin kohtaan käännöksessä on syytä lisätä artikkeleita (a, an, the), koska suomen kielessä ei niitä käytetä.

Suomen sijapäätteitä se kääntää yskähdellen. Jos käyttää suppeaa perussanastoa ja yksinkertaista subjekti-predikaatti-objekti-lauserakennetta, voi kuitenkin onnistua.

Tämä lyhyt virke kääntyy väärin:

”Mahtoiko hän olla aarteenetsintäpuuhissa?”

Muutamme sen muotoon:

”Olikohan hän aarretta etsimässä?”

Käännösurakan vihoviimeinen virke on tämä:

”Vanhat ihmiset olivat kyllä puhuneet että suolla olisi joskus palanut virvatulia.”

Google osaa kääntää virvatulen oikein vain, jos sana on yksikössä. Pahoittelut, Väinö Linna, joudumme muuttamaan kirjasi asiasisältöä.

”Vanhat ihmiset sanoivat että virvatuli oli palanut suolla joskus.”

Testimme tulos oli odotettu. Linnan proosa on sellaisenaan liian monimutkaista Google Translaten käännettäväksi. Mutta jos virkkeitä yksinkertaistaa ja vaihtaa vaikeita sanoja yksinkertaisempiin, saa tarinan koneluettavaan muotoon.

Alta näet, millaiseen muotoon Google Translate kääntää alkuperäisen tekstin ja HS:n editoiman yksinkertaisen version – ja millainen on ammattikääntäjän versio kirjan alusta.

Monesti pienetkin muutokset riittävät parempaan konekäännökseen. Toisaalta arvaamattomia virheitä syntyy käsittämättömistä syistä.

Jos tekstin esimerkiksi panee lainausmerkkeihin, käännös voi muuttua täysin.

Jos haluaa ottaa varman päälle, kannattaa pitäytyä tällaisella palikkatasolla:

”Suo oli autio, keskeltä melkein puuton, ja mänty kasvoi suon pinnasta.”

Konekääntimien vahvuus ei ole luovan tekstin kääntäminen. Oikeasti niitä käytetään ihan muuhun.

Esimerkiksi erilaisia EU-dokumentteja käännetään paljon konekääntimen avulla, samoin patentteja ja kodinkoneiden käyttöohjeita. Sellaisissa erikoisteksteissä kone tuottaa hyvää jälkeä – teksteissä, jotka ovat ihmisille usein työläämpiä lukea kuin kaunokirjallisuus.

”Esimerkiksi patenteissa toistuu tietty rakenne, jota koneen on helppo käsitellä”, Koponen sanoo. Myös erityisalojen sanasto tuppaa olemaan täsmällistä.

Ammattitekstiä ei yleensä käännetä Google Translatella, vaan erikoisohjelmistoilla, jotka nekin käyttävät tilastollisen kääntämisen menetelmää.

Sen ohella ne voivat soveltaa tekstiin myös sanastoja ja kielioppisääntöjä. Niidenkin tuottamia käännöksiä pitää ihmisen muokata, mutta usein jälki on melko valmista.

Ammattikäytössä monet organisaatiot hyödyntävät Edinburghin yliopistossa kehitettyä Moses-käännöstyökalua.

Kuka tahansa voi ladata sen ilmaiseksi verkosta, mutta ohjelmaan pitää syöttää käännettävien kielten lähdemateriaali erikseen. Se ei ole Google Translaten kaltainen heti käyttövalmis kuluttajan työkalu.

Jotkut verkossa toimivat sanomalehdet hyödyntävät konekäännöstä kääntäessään uutisia kieleltä toiselle, esimerkiksi espanjasta sen sukulaiskielelle katalaaniin.

Silloin tällöin helppoheikit yrittävät myydä myös konekääntimellä suomennettuja romaaneja. Viime syksynä sellaisia löytyi verkkokirjakauppa AdLibriksen valikoimista, ja hieman aiemmin Amazon jäi kiinni konekäännettyjen romaanien myynnistä.

Käännökset ovat oikeasti kelvottomia myyntiin. Jos tekniikka kuitenkin jatkaa kehittymistään, ehkä joskus kaukaisessa tulevaisuudessa Linnankin kirjat solahtavat käännöskoneesta suoraan painoon.

Vielä aika ei ole siihen kypsä.

Internetin ilmaisia käännöskoneita

 Tunnetuin konekäännin on Google Translate, jolla voi kääntää tekstiä 90 kielelle.

translate.google.fi

 Microsoftin kilpailevan Bing-kääntäjän valikoimissa on 54 kieltä.

www.bing.com/translator

 Yleiskääntimet eivät tuota parasta mahdollista jälkeä kaikissa kielipareissa. Netissä on myös yksittäisten kielien kääntämiseen erikoistuneita käännöskoneitä. Tämä konekäännin esimerkiksi kääntää suomea viroksi:

masintolge.ut.ee/et-fi

 Promt-käännöskone kääntää tekstiä suomen ja tusinan muun kielen, muun muassa Venäjän, välillä.

www.online-translator.com

 Suomalaisen yrityksen Sundan suomi-englanti-konekäännintä voi kokeilla ilmaiseksi. Käännettävä teksti voi olla yhden virkkeen mittainen.

www.sunda.fi

Kommentit

    Ei vielä kommentteja. Kirjoita ensimmäinen.

    Näytä lisää
    Luetuimmat
    1. 1

      Kela rankaisi ystävääni vanhemman menettämisestä

    2. 2

      Hallitus jakaa lisää rahaa tutkimukseen, mutta ei saanut leikattua yritystukia – työttömyystuki heikkenee, jos ei käy töissä tai työllistämis­ohjelmissa

    3. 3

      Näin upeina et ole koskaan nähnyt Signe Branderin ja muiden Helsinki-kuvaajien otoksia – tästä päivästä lähtien huippulaatuisia kuvia saa käyttää vapaasti

    4. 4

      Kolmen tunnin juhlarahakohu – suomalaisten päivittäisen pöyristymisen tarve synnyttää merkityksettömiä mikroskandaaleja

    5. 5

      Kun pienten tyttöjen isä nukkui viiden tunnin päiväunia, se ei ollut merkki väsymyksestä vaan aivosyövästä – Kirsi Karhusen mies sai Suomen parasta saattohoitoa, mutta moni muu ei saa

    6. 6

      USA:n ulkopolitiikalle ei löydy johtajaa – ulkoministeri Tillersonia kutsutaan nimellä ”Yksin kotona”

    7. 7

      Uuden asunnon arvo voi nousta käytettyä hitaammin – näin vältät sudenkuopat vastavalmistunutta asuntoa harkitessasi

    8. 8

      Juhlarahakohu meemeinä: Rahapajan versiossa teloitetaan vankeja, internet kehitteli heti vaihtoehtoisia ”juhlavuoden” aiheita

    9. 9

      Kehysriihen lopputulos vaikuttaa monen etuuksiin – Nämä ovat hallituksen tärkeimmät päätökset

    10. 10

      Munkkiniemessä ei jaettu postia liki kahteen viikkoon, mutta Posti väitti kaiken olevan kunnossa – Nyt ääni muuttui kellossa: ”Nöyrimmät pahoittelut asiakkaille”

    11. Näytä lisää
    1. 1

      Kun pienten tyttöjen isä nukkui viiden tunnin päiväunia, se ei ollut merkki väsymyksestä vaan aivosyövästä – Kirsi Karhusen mies sai Suomen parasta saattohoitoa, mutta moni muu ei saa

    2. 2

      Ministeriö vetää takaisin punavankien teloitusta esittävän juhlarahan – Orpo pahoittelee: ”En kiinnittänyt riittävää huomiota asetuksen visuaaliseen suunnitelmaan”

    3. 3

      Munkkiniemessä ei jaettu postia liki kahteen viikkoon, mutta Posti väitti kaiken olevan kunnossa – Nyt ääni muuttui kellossa: ”Nöyrimmät pahoittelut asiakkaille”

    4. 4

      Kaksi eläkeläistä ja suojana 12 poliisia – saksalaispariskunta antoi oikeistopopulismille kasvot, eivätkä kaikki pitäneet siitä

    5. 5

      Kätilöopisto on sairastuttanut kymmeniä ihmisiä, kertovat kätilöt – migreenikohtauksia, ihottumaa, astmaa, jatkuva elohiiri raajoissa

    6. 6

      Juhlarahakohu meemeinä: Rahapajan versiossa teloitetaan vankeja, internet kehitteli heti vaihtoehtoisia ”juhlavuoden” aiheita

    7. 7

      Syövän on epäilty johtuvan stressistä, ujoudesta, jopa kielteisistä ajatuksista – laaja kartoitus murtaa sairastuneille haitallisia myyttejä

    8. 8

      Asumistukeen leikkauksia, ministereitä kolme lisää – HSTV:n suora lähetys hallituksen tiedotustilaisuudesta juuri nyt

    9. 9

      Kielletyn sisällissotakolikon suunnittelija ja tilaaja puolustavat työtä: ”Kansakunnan sivistyneisyys punnitaan sillä, kuinka se pystyy käsittelemään omaa historiaansa”

    10. 10

      Kolmen tunnin juhlarahakohu – suomalaisten päivittäisen pöyristymisen tarve synnyttää merkityksettömiä mikroskandaaleja

    11. Näytä lisää
    1. 1

      Ammattikoulutuksen tila on kelvoton – poikani lukujärjestys on tyhjä ja hän joutuu lorvimaan kotona

    2. 2

      Oudot tuntemukset juoksulenkillä paljastuivat syöväksi – Entinen huippu-urheilija Kirsi Valasti uskoo, että liikunnan tuoma kehotietoisuus pelasti hänet

    3. 3

      Bostonin maratonin voittajan uurteiset reisilihakset hämmästyttävät: ”En ole nähnyt koskaan mitään vastaavaa”

    4. 4

      ”Se on kuin jokin uskonto: usein kun suomalainen lähtee töistä, hän ei enää vastaa puhelimeen” – USA:ssa uraa tehnyt Tero Kuittinen hämmästelee suomalaista keskustelua työuupumuksesta

    5. 5

      Kolmentuhannen euron lasku kuoleman jälkeen yllätti omaiset

    6. 6

      Kun pienten tyttöjen isä nukkui viiden tunnin päiväunia, se ei ollut merkki väsymyksestä vaan aivosyövästä – Kirsi Karhusen mies sai Suomen parasta saattohoitoa, mutta moni muu ei saa

    7. 7

      Selvitys: Lähes kolmannes pohjoiskorealaisista käyttää huumeita – metamfetamiini on monille jo arkipäiväistä

    8. 8

      Ravitsemusterapeutti kärsi vuosia kipeästä vatsasta ja ilmavaivoista – Sitten ystävä kertoi ruokavaliosta, joka toi helpotuksen

    9. 9

      Onko tässä Helsingin pienin ja kallein vuokrayksiö? 10 neliömetriä, 1 941 euroa kuukaudessa

    10. 10

      Nyt on hyvä aika päivittää televisio – alle kuukauden päästä kanavasi voivat pimentyä

    11. Näytä lisää