Valikko
Tekniikka

”Jussi liikkui suolla, pysähteli” – Muokkasimme Väinö Linnan klassikkokirjan alun sellaiseen muotoon, että Google Translate osaa kääntää sen

Täällä Pohjantähden alla on aivan liian vaikea koneen käännettäväksi. Testasimme, millaista kieltä Google Translate osaisi kääntää.

Alussa olivat suo, kuokka – ja Jussi.

Näin alkaa Väinö Linnan tunnettu kolmeosainen romaani Täällä Pohjantähden alla. Sen ensimmäinen virke on jo itsessään klassikko. Lause on selkeä ja jämäkkä kuin torpparin ensimmäinen kuokanisku sammaleeseen.

Sen ymmärtää jopa tietokone.

”In the beginning there were the swamp, the hoe and Jussi.”

Näin muuntaa käännössivusto Google Translate virkkeen englanniksi. Käännös on kutakuinkin oikea.

”Kyllä tästä ymmärtää, mistä puhutaan”, sanoo konekäännöksiin perehtynyt väitöskirjatutkija Maarit Koponen Helsingin yli­opistosta.

Alku on lupaava. Heti seuraavassa virkkeessä homma meneekin jo päin seiniä.

Olemme ryhtyneet hankkeeseen, joka tuntuu ennakkoon hieman arveluttavalta.

Aiomme testata, kuinka hyvin Google Translate osaa kääntää englanniksi Pohjantähti-trilogian alun – tarkemmin sanottuna kuusi ensimmäistä virkettä.

Aiomme myös selvittää, missä kulkee konekääntimen kykyjen raja: editoimme Linnan tekstiä yksinkertaisemmaksi, kunnes kone osaa kääntää tekstin siedettävällä tarkkuudella oikein.

Epäilemme, että Linnan alkuperäinen proosa on Googlelle liikaa. Kaunokirjalliseen teokseen kajoaminen tuntuu puoskaroinnilta, mutta tarkoitus on hyvä.

Etsimme vastausta tähän kysymykseen: millaista kieltä pitäisi kirjoittaa, että kone osaisi kääntää sen?

Käytämme testiaineistona Linnan Pohjantähden alkua. Sen kääntäminen on vaikea tehtävä, mutta haluamme todella testata, missä kulkee koneen osaamisen raja.

Internet on tuonut automaattiset kielenkääntimet kaikkien ulottuville. Verkossa on monia sivustoja, jotka kääntävät tekstiä napinpainalluksella kielestä toiseen. Niitä ovat kehittäneet yritykset ja yliopistotutkijat.

Tunnetuin käännössivusto on ilmaispalvelu Google Translate, joka muuntaa minkä tahansa tekstin suomesta englanniksi, saksaksi, japaniksi, hepreaksi tai jollekin muulle vieraalle kielelle tai toiseen suuntaan suomeksi.

Valikoimassa on yhdeksänkymmentä kieltä. Se on enemmän kuin vaikkapa Microsoftin kehittämällä kilpailevalla Bing-kääntimellä.

Näiden sivustojen käännökset eivät ole lähellekään samaa tasoa kuin ihmisten tuottamat. Ammattikääntäjien työhön niitä ei kannattaisi edes verrata. Niistä voi kuitenkin saada käsityksen vieraskielisen tekstin asiasisällöstä.

Laatu myös paranee vuosi vuodelta.

”Olen käyttänyt luennoilla erilaisia esimerkkejä siitä, missä asioissa konekääntimet tekevät virheitä. Monia parin kolmen vuoden takaisia esimerkkejä en enää voi käyttää, koska esimerkiksi Googlen käännös on ny­kyään aivan erilainen”, sanoo konekäännösten laatua työkseen tutkiva Koponen.

Kaunokirjallisuuden kääntäminen on kuitenkin koneelle erityisen vaikeaa.

Se ilmenee karvaasti, kun syötämme Pohjantähden toisen virkkeen käännöskoneeseen.

”Suo oli autio, keskeltä melkein puuton neva, jonka veden vaivaamasta kamarasta nousi vain jokin kitukasvuinen käkkyrämänty, vahvakaarnainen ja tasalatvainen pieni vanhus.”

Näin teksti kääntyy:

”Swamp was deserted, almost treeless bog in the middle, which the rind to trouble the water rose only a stunted käkkyrämänty, strong bark and balanced crowned a small old man.”

Käännöksen alku on järkevä, mutta sen keskiosa ja loppu ovat täyttä dadaa.

”Merkitys katoaa ihan kokonaan”, Koponen sanoo.

Miten käännös oikein on syntynyt?

Google Translate ei yritä kääntää tekstiä kielioppisääntöjen perusteella. Se ei edes tiedä suomen kieliopista mitään.

Sen sijaan se käyttää tilastollisen kielenkääntämisen menetelmää.

Kääntimelle on annettu lähdeaineistoksi tekstejä, jotka ihmiset ovat kääntäneet eri kielille. EU-komission viralliset monikieliset dokumentit, kodinkoneiden käyttöohjeet, patentit, kirjat, sanomalehtijutut sekä Wikipedia-artikkelit ovat tyypillistä konekääntimen ruokaa.

Se käyttää hyväkseen erityisesti ammattikääntäjien aiemmin tekemää työtä.

Uusia käännöksiä tehdessään kone tutkii, mitkä sanat tai sanayhdistelmät useimmiten vastaavat käännettävää tekstiä lähdeaineistossa.

Mitä enemmän ja parempaa lähdeaineistoa, sitä parempia käännöksiä syntyy.

Nyt monet sanat ovat kuitenkin kääntyneet päin honkia.

Kamara viittaa kirjassa maanpintaan, mutta käännös rind tarkoittaa esimerkiksi siankamaraa. Tasalatvaisen käännös on omituinen balanced crowned. Veden vaivaama on muuttunut siansaksaksi ja käkkyrämänty jäänyt suomenkieliseen muotoon.

”Googlen opetusaineisto ei ole ilmeisesti sisältänyt sanaa käkkyrämänty”, Koponen sanoo.

Kitukasvuinen sen sijaan näyttää löytyneen. Sille stunted kelpaa käännökseksi.”

Myös virkkeen rakenne hajoaa pahasti. Käännöskone ei ymmärrä sanojen keskinäisiä viittaussuhteita: keskeltä melkein puuton neva on käännetty muotoon almost treeless bog in the middle, mikä tarkoittaa että suo olisi keskellä jotain.

Eihän kirjailija sitä tarkoittanut.

”Palapelin palaset ovat oikein, mutta ne on kasattu väärin”, Koponen sanoo.

Parinkymmenen sanan virkettä Google Translate ei edes yritä käsitellä yhtenä kokonaisuutena. Se kääntää tekstiä kolmen neljän sanan paloissa. Suo, kuokka ja Jussi on sille jo iso palikka.

Ryhdymme töihin: muokkaamme tekstiä ja testaamme, kuinka konekäännös muuttuu.

Asetamme riman alas. Google Translate ei missään tapauksessa osaa tuottaa hyvää proosaa eikä edes sulavaa asiatekstiä ihmiskirjoittajan mittapuulla. Emme pyrikään siihen. Riittää, että virkkeen asiasisältö välittyy pääpiirteittäin.

Teemme virkkeeseen uusia sivulauseita. Korvaamme käkkyrämännyn sanalla mänty ja poistamme neva-sanan kokonaan. Muutaman välivaiheen kautta päädymme tulokseen:

”Suo oli autio, keskeltä melkein puuton, ja mänty kasvoi suon pinnasta.”

Olemme löytäneet jonkinlaista kovaa maata. Tämä virke kääntyy kutakuinkin oikein. Siinä on kuitenkin harmillinen virhe:

Suo käännetään sanaksi grant.

Olemme tuskastuneita. Linnan alkuperäistä virkettä kään­täessään Google Translate sentään tajusi, että suo on swamp. Kun yksinkertaistimme ja lyhensimme lausetta, konekäännin alkoi jossain vaiheessa luulla, että suo on grant.

”Tämä on kuin yrittäisi naulata hyytelöä seinään”, Koponen sanoo huvittuneena.

Miten suo edes voi olla grant?

Ai niin.

Suoda mahdollisuus, to grant an opportunity. Kone luulee, että kysymys on suoda-verbistä.

Ilmiö kuvaa tilastollisten käännösten satunnaisuutta. Pieni muutos tekstissä keikauttaa käännöksen päälaelleen kaaos­teorian oppien mukaisesti. Google Translate voi myös kääntää saman tekstin hieman eri tavalla eri päivinä.

Työstämme virkettä lisää. Etenemme nyt toiseen suuntaan ja lisäämme virkkeeseen asioita, joita poistimme äsken. Jossain vaiheessa suo-sana muuttuu takaisin muotoon swamp. Emme tiedä, miksi.

Päädymme lopputulokseen:

Suo oli autio, keskeltä melkein puuton, ja vain yksi kitukasvuinen mänty kasvoi suon pinnasta, joka oli veden vaivaama. Kitukasvuinen mänty, vanhus jonka kaarna oli vahva ja latva oli tasainen.

Kielellisesti virke on kalpea varjo Linnan alkuperäisestä lauseesta. Se kuitenkin täyttää tehtävänannon. Konekäännös on tarpeeksi ymmärrettävä:

”Swamp was deserted, almost treeless in the middle, and only one stunted pine tree grew from the peatland surface, which was water-stricken. Stunted pine, old man whose bark was strong and the top was flat.”

Seuraavat virkkeet ovat helpompia.

”Jussi liikkui suolla, pysähdellen, katsellen, tarkkaillen ja arvioiden.”

Virkettä ei tarvitse paljoa editoida, että siitä tulee konekäännettävä:

”Jussi liikkui suolla, pysähteli, katseli, tarkkaili ja arvioi.”

Entäs sitten tämä?

”Hän otti seipään, tarkasti huolellisesti että näkijöitä ei ollut, ja kaivoi sitten sillä kuopan suon pintaan.”

Sanajärjestystä pitää muuttaa ja näkijä vaihtaa silminnäkijäksi, ettei käännöskone luule, että kyseessä on selvännäkijä:

”Hän otti seipään, huolellisesti tarkisti että ei ollut silminnäkijöitä, ja kaivoi sitten sillä kuopan suon pintaan.”

Seuraava virke onkin vaikeampi tapaus.

”Sellaisia kuoppia hän teki useaan kohtaan, mutta aikansa niitä tarkasteltuaan hän peitti ne huolellisesti ja vilkaisi aina välillä ympärilleen aivan kuin jotain peläten.”

Vääntelemme ja kääntelemme tekstiä. Päätämme jakaa sen kahteen palaan:

”Hän teki kuoppia useisiin kohtiin. Mutta tarkasteltuaan niitä jonkin aikaa hän peitti ne huolellisesti ja vilkaisi ympärilleen aina välillä niin kuin pelkäisi jotain.”

Lauseita veivatessa huomaa, että monet suomen kielen piirteet ovat käännöskoneelle vaikeita. Se ei ymmärrä vapaata sanajärjestystä. Se ei tajua, mihin kohtaan käännöksessä on syytä lisätä artikkeleita (a, an, the), koska suomen kielessä ei niitä käytetä.

Suomen sijapäätteitä se kääntää yskähdellen. Jos käyttää suppeaa perussanastoa ja yksinkertaista subjekti-predikaatti-objekti-lauserakennetta, voi kuitenkin onnistua.

Tämä lyhyt virke kääntyy väärin:

”Mahtoiko hän olla aarteenetsintäpuuhissa?”

Muutamme sen muotoon:

”Olikohan hän aarretta etsimässä?”

Käännösurakan vihoviimeinen virke on tämä:

”Vanhat ihmiset olivat kyllä puhuneet että suolla olisi joskus palanut virvatulia.”

Google osaa kääntää virvatulen oikein vain, jos sana on yksikössä. Pahoittelut, Väinö Linna, joudumme muuttamaan kirjasi asiasisältöä.

”Vanhat ihmiset sanoivat että virvatuli oli palanut suolla joskus.”

Testimme tulos oli odotettu. Linnan proosa on sellaisenaan liian monimutkaista Google Translaten käännettäväksi. Mutta jos virkkeitä yksinkertaistaa ja vaihtaa vaikeita sanoja yksinkertaisempiin, saa tarinan koneluettavaan muotoon.

Alta näet, millaiseen muotoon Google Translate kääntää alkuperäisen tekstin ja HS:n editoiman yksinkertaisen version – ja millainen on ammattikääntäjän versio kirjan alusta.

Monesti pienetkin muutokset riittävät parempaan konekäännökseen. Toisaalta arvaamattomia virheitä syntyy käsittämättömistä syistä.

Jos tekstin esimerkiksi panee lainausmerkkeihin, käännös voi muuttua täysin.

Jos haluaa ottaa varman päälle, kannattaa pitäytyä tällaisella palikkatasolla:

”Suo oli autio, keskeltä melkein puuton, ja mänty kasvoi suon pinnasta.”

Konekääntimien vahvuus ei ole luovan tekstin kääntäminen. Oikeasti niitä käytetään ihan muuhun.

Esimerkiksi erilaisia EU-dokumentteja käännetään paljon konekääntimen avulla, samoin patentteja ja kodinkoneiden käyttöohjeita. Sellaisissa erikoisteksteissä kone tuottaa hyvää jälkeä – teksteissä, jotka ovat ihmisille usein työläämpiä lukea kuin kaunokirjallisuus.

”Esimerkiksi patenteissa toistuu tietty rakenne, jota koneen on helppo käsitellä”, Koponen sanoo. Myös erityisalojen sanasto tuppaa olemaan täsmällistä.

Ammattitekstiä ei yleensä käännetä Google Translatella, vaan erikoisohjelmistoilla, jotka nekin käyttävät tilastollisen kääntämisen menetelmää.

Sen ohella ne voivat soveltaa tekstiin myös sanastoja ja kielioppisääntöjä. Niidenkin tuottamia käännöksiä pitää ihmisen muokata, mutta usein jälki on melko valmista.

Ammattikäytössä monet organisaatiot hyödyntävät Edinburghin yliopistossa kehitettyä Moses-käännöstyökalua.

Kuka tahansa voi ladata sen ilmaiseksi verkosta, mutta ohjelmaan pitää syöttää käännettävien kielten lähdemateriaali erikseen. Se ei ole Google Translaten kaltainen heti käyttövalmis kuluttajan työkalu.

Jotkut verkossa toimivat sanomalehdet hyödyntävät konekäännöstä kääntäessään uutisia kieleltä toiselle, esimerkiksi espanjasta sen sukulaiskielelle katalaaniin.

Silloin tällöin helppoheikit yrittävät myydä myös konekääntimellä suomennettuja romaaneja. Viime syksynä sellaisia löytyi verkkokirjakauppa AdLibriksen valikoimista, ja hieman aiemmin Amazon jäi kiinni konekäännettyjen romaanien myynnistä.

Käännökset ovat oikeasti kelvottomia myyntiin. Jos tekniikka kuitenkin jatkaa kehittymistään, ehkä joskus kaukaisessa tulevaisuudessa Linnankin kirjat solahtavat käännöskoneesta suoraan painoon.

Vielä aika ei ole siihen kypsä.

Internetin ilmaisia käännöskoneita

 Tunnetuin konekäännin on Google Translate, jolla voi kääntää tekstiä 90 kielelle.

translate.google.fi

 Microsoftin kilpailevan Bing-kääntäjän valikoimissa on 54 kieltä.

www.bing.com/translator

 Yleiskääntimet eivät tuota parasta mahdollista jälkeä kaikissa kielipareissa. Netissä on myös yksittäisten kielien kääntämiseen erikoistuneita käännöskoneitä. Tämä konekäännin esimerkiksi kääntää suomea viroksi:

masintolge.ut.ee/et-fi

 Promt-käännöskone kääntää tekstiä suomen ja tusinan muun kielen, muun muassa Venäjän, välillä.

www.online-translator.com

 Suomalaisen yrityksen Sundan suomi-englanti-konekäännintä voi kokeilla ilmaiseksi. Käännettävä teksti voi olla yhden virkkeen mittainen.

www.sunda.fi

Kommentit

  Ei vielä kommentteja. Kirjoita ensimmäinen.

  Näytä lisää

  Luetuimmat

  1. 1

   Mies, jos haluat nöyrän kumppanin, ota koira

  2. 2

   Anne Berner infossa: Liikenteen lähivuosien muutos on suurempi kuin auton keksiminen

  3. 3

   Erika Vikman on tv-tähti, suosikkilaulaja – ja Dannyn kumppani, mutta miten hän oikein on 23-vuotiaana tullut tähän?

  4. 4

   HSTV kello 11: Sinnikkyyttä voi opettaa, ja se on nyt erityisen tärkeää, sanoo erityisluokan­opettaja – ”Lapset ja nuoret eivät enää tajua, miten paljon työtä asiat vaativat”

  5. 5

   Lumivyöry Italiassa hautasi hotellin – useita kuollut, rakennuksessa oli jopa 30 ihmistä

  6. 6

   HSTV seuraa liikenne­uudistuksen ratkaisupäivää: ministeriön tiedotustilaisuus käynnissä, ministeri Berner studiossa kello 16

  7. 7

   ”Jos mieheni ei olisi halunnut lapsia, olisin varmasti ollut tyytyväinen ilman” – Erimielisyys lasten hankkimisesta on parisuhteissa yleistä

  8. 8

   HS asensi kohutun ”mustan laatikon” testiautoon – tällaista tietoa Bernerin esille nostama seurantalaite keräsi

  9. 9

   Naisten siivousvimmasta voivat kärsiä paitsi miehet myös ystävättäret

  10. 10

   Ruokatrendit, kuten sushi, veganismi ja pienoluet, ovat esittämistä, jolla hyväosaiset tekevät eroa muihin, sanoo tutkija – ja hänellä on lukuja todisteeksi

  11. Näytä lisää
  1. 1

   Poliisi epäilee Helsingissä ”kaikkien aikojen korruptiotapausta” – Helsingin opetusviraston turvallisuuspäällikkö vangittu

  2. 2

   Ruokatrendit, kuten sushi, veganismi ja pienoluet, ovat esittämistä, jolla hyväosaiset tekevät eroa muihin, sanoo tutkija – ja hänellä on lukuja todisteeksi

  3. 3

   Perussuomalaisten kansanedustaja laulaa levyllään ”punahuorasta” – Kannen kuvassa uhataan aseella naista punaisten muistomerkillä

  4. 4

   ”Jokainen, jolla on auto, häviää” – Veronmaksajien mukaan Bernerin esitys uhkaa romahduttaa käytettyjen autojen arvon jo nyt

  5. 5

   Viranomaiset hakivat espoolaispojan kesken koulupäivän – vakavasti sairas äiti ei pääse tapaamaan satojen kilometrien päähän vietyä lastaan

  6. 6

   Helsingin epäily tarkentui: Virkamies veti välistä oppilaiden tietokoneisiin tarkoitettuja rahoja – päätti jopa 55 miljoonasta eurosta

  7. 7

   Mies, jos haluat nöyrän kumppanin, ota koira

  8. 8

   Ennen musiikkiluokille jonotettiin, nyt niitä ajetaan alas: ”Musiikista tulee tätä menoa vain eliitin harrastus”

  9. 9

   HSTV kello 11: Sinnikkyyttä voi opettaa, ja se on nyt erityisen tärkeää, sanoo erityisluokan­opettaja – ”Lapset ja nuoret eivät enää tajua, miten paljon työtä asiat vaativat”

  10. 10

   HK sekoittaa jauhelihan joukkoon porkkanaa – ”Kasvisten pilkkominen on työlästä ja vie aikaa”

  11. Näytä lisää
  1. 1

   Ulkomailla asuneet suomalaiset kertovat rajusta paluusokista: ”Tuntui siltä, että ainoa vaihtoehto on lähteä taas pois”

  2. 2

   Parisuhteissa mies ei päätä juuri mistään, sanoo asiantuntija – ”Tasa-arvoisesta suhteesta on ajauduttu hyvin kauas”

  3. 3

   Uudet seksitavat lisäävät rajusti nielusyöpien määrää – tutkija ehdottaa HPV-rokotusohjelman laajentamista poikiin

  4. 4

   Olivia Oras ryhtyi instaamaan, sai tuhansia seuraajia ja vietti 16-vuotiaana vip-elämää – mutta alkoi pelätä imeytymistä someen ja palasi kotiin

  5. 5

   Poliisi epäilee Helsingissä ”kaikkien aikojen korruptiotapausta” – Helsingin opetusviraston turvallisuuspäällikkö vangittu

  6. 6

   Joukko Munkkiniemen yhteiskoulun lukion oppilaita karkasi bileristeilylle Ruotsiin – Rehtori: ”Viitteitä suuresta salajuonesta”

  7. 7

   Heli Kurjanen kehitti maailman myydyimmän kuukautiskupin – suorasukainen markkinointi on järkyttänyt Yhdysvalloissa

  8. 8

   Kukaan ei tunne 25-vuotiasta Axel Thesleffiä, mutta hänen biisinsä oli viime vuoden suurin Suomi-hitti, jota on kuunneltu yli 130 miljoonaa kertaa – Miten se on mahdollista?

  9. 9

   Muutin 41-vuotiaana vanhempieni luokse ja toivon, että oma lapseni voi keski-ikäisenä kivuta syliini itkemään

  10. 10

   Viranomaiset hakivat espoolaispojan kesken koulupäivän – vakavasti sairas äiti ei pääse tapaamaan satojen kilometrien päähän vietyä lastaan

  11. Näytä lisää