Tarkista selaimen asetuksista, että JavaScript ja evästeet ovat käytössä.

Mikäli JavaScript on käytössä, mutta jokin selainlaajennus estää sen lataamisen, poista selainlaajennus käytöstä.

”Jussi liikkui suolla, pysähteli” – Muokkasimme Väinö Linnan klassikkokirjan alun sellaiseen muotoon, että Google Translate osaa kääntää sen

Tekniikka
 
Outi Pyhäranta / HS
Näin Googlen käännöskone kääntää Täällä Pohjantähden alla -kirjan alun. Oikealla ammattikääntäjä Richard Impolan käännös.
Näin Googlen käännöskone kääntää Täällä Pohjantähden alla -kirjan alun. Oikealla ammattikääntäjä Richard Impolan käännös. Kuva: Outi Pyhäranta / HS
Fakta

Internetin ilmaisia käännöskoneita

 Tunnetuin konekäännin on Google Translate, jolla voi kääntää tekstiä 90 kielelle.

translate.google.fi

 Microsoftin kilpailevan Bing-kääntäjän valikoimissa on 54 kieltä.

www.bing.com/translator

 Yleiskääntimet eivät tuota parasta mahdollista jälkeä kaikissa kielipareissa. Netissä on myös yksittäisten kielien kääntämiseen erikoistuneita käännöskoneitä. Tämä konekäännin esimerkiksi kääntää suomea viroksi:

masintolge.ut.ee/et-fi

 Promt-käännöskone kääntää tekstiä suomen ja tusinan muun kielen, muun muassa Venäjän, välillä.

www.online-translator.com

 Suomalaisen yrityksen Sundan suomi-englanti-konekäännintä voi kokeilla ilmaiseksi. Käännettävä teksti voi olla yhden virkkeen mittainen.

www.sunda.fi

Alussa olivat suo, kuokka – ja Jussi.

Näin alkaa Väinö Linnan tunnettu kolmeosainen romaani Täällä Pohjantähden alla. Sen ensimmäinen virke on jo itsessään klassikko. Lause on selkeä ja jämäkkä kuin torpparin ensimmäinen kuokanisku sammaleeseen.

Sen ymmärtää jopa tietokone.

”In the beginning there were the swamp, the hoe and Jussi.”

Näin muuntaa käännössivusto Google Translate virkkeen englanniksi. Käännös on kutakuinkin oikea.

”Kyllä tästä ymmärtää, mistä puhutaan”, sanoo konekäännöksiin perehtynyt väitöskirjatutkija Maarit Koponen Helsingin yliopistosta.

Alku on lupaava. Heti seuraavassa virkkeessä homma meneekin jo päin seiniä.

Olemme ryhtyneet hankkeeseen, joka tuntuu ennakkoon hieman arveluttavalta.

Aiomme testata, kuinka hyvin Google Translate osaa kääntää englanniksi Pohjantähti-trilogian alun – tarkemmin sanottuna kuusi ensimmäistä virkettä.

Aiomme myös selvittää, missä kulkee konekääntimen kykyjen raja: editoimme Linnan tekstiä yksinkertaisemmaksi, kunnes kone osaa kääntää tekstin siedettävällä tarkkuudella oikein.

Epäilemme, että Linnan alkuperäinen proosa on Googlelle liikaa. Kaunokirjalliseen teokseen kajoaminen tuntuu puoskaroinnilta, mutta tarkoitus on hyvä.

Etsimme vastausta tähän kysymykseen: millaista kieltä pitäisi kirjoittaa, että kone osaisi kääntää sen?

Käytämme testiaineistona Linnan Pohjantähden alkua. Sen kääntäminen on vaikea tehtävä, mutta haluamme todella testata, missä kulkee koneen osaamisen raja.

Internet on tuonut automaattiset kielenkääntimet kaikkien ulottuville. Verkossa on monia sivustoja, jotka kääntävät tekstiä napinpainalluksella kielestä toiseen. Niitä ovat kehittäneet yritykset ja yliopistotutkijat.

Tunnetuin käännössivusto on ilmaispalvelu Google Translate, joka muuntaa minkä tahansa tekstin suomesta englanniksi, saksaksi, japaniksi, hepreaksi tai jollekin muulle vieraalle kielelle tai toiseen suuntaan suomeksi.

Valikoimassa on yhdeksänkymmentä kieltä. Se on enemmän kuin vaikkapa Microsoftin kehittämällä kilpailevalla Bing-kääntimellä.

Näiden sivustojen käännökset eivät ole lähellekään samaa tasoa kuin ihmisten tuottamat. Ammattikääntäjien työhön niitä ei kannattaisi edes verrata. Niistä voi kuitenkin saada käsityksen vieraskielisen tekstin asiasisällöstä.

Laatu myös paranee vuosi vuodelta.

”Olen käyttänyt luennoilla erilaisia esimerkkejä siitä, missä asioissa konekääntimet tekevät virheitä. Monia parin kolmen vuoden takaisia esimerkkejä en enää voi käyttää, koska esimerkiksi Googlen käännös on nykyään aivan erilainen”, sanoo konekäännösten laatua työkseen tutkiva Koponen.

Kaunokirjallisuuden kääntäminen on kuitenkin koneelle erityisen vaikeaa.

Se ilmenee karvaasti, kun syötämme Pohjantähden toisen virkkeen käännöskoneeseen.

”Suo oli autio, keskeltä melkein puuton neva, jonka veden vaivaamasta kamarasta nousi vain jokin kitukasvuinen käkkyrämänty, vahvakaarnainen ja tasalatvainen pieni vanhus.”

Näin teksti kääntyy:

”Swamp was deserted, almost treeless bog in the middle, which the rind to trouble the water rose only a stunted käkkyrämänty, strong bark and balanced crowned a small old man.”

Käännöksen alku on järkevä, mutta sen keskiosa ja loppu ovat täyttä dadaa.

”Merkitys katoaa ihan kokonaan”, Koponen sanoo.

Miten käännös oikein on syntynyt?

Google Translate ei yritä kääntää tekstiä kielioppisääntöjen perusteella. Se ei edes tiedä suomen kieliopista mitään.

Sen sijaan se käyttää tilastollisen kielenkääntämisen menetelmää.

Kääntimelle on annettu lähdeaineistoksi tekstejä, jotka ihmiset ovat kääntäneet eri kielille. EU-komission viralliset monikieliset dokumentit, kodinkoneiden käyttöohjeet, patentit, kirjat, sanomalehtijutut sekä Wikipedia-artikkelit ovat tyypillistä konekääntimen ruokaa.

Se käyttää hyväkseen erityisesti ammattikääntäjien aiemmin tekemää työtä.

Uusia käännöksiä tehdessään kone tutkii, mitkä sanat tai sanayhdistelmät useimmiten vastaavat käännettävää tekstiä lähdeaineistossa.

Mitä enemmän ja parempaa lähdeaineistoa, sitä parempia käännöksiä syntyy.

Nyt monet sanat ovat kuitenkin kääntyneet päin honkia.

Kamara viittaa kirjassa maanpintaan, mutta käännös rind tarkoittaa esimerkiksi siankamaraa. Tasalatvaisen käännös on omituinen balanced crowned. Veden vaivaama on muuttunut siansaksaksi ja käkkyrämänty jäänyt suomenkieliseen muotoon.

”Googlen opetusaineisto ei ole ilmeisesti sisältänyt sanaa käkkyrämänty”, Koponen sanoo.

Kitukasvuinen sen sijaan näyttää löytyneen. Sille stunted kelpaa käännökseksi.”

Myös virkkeen rakenne hajoaa pahasti. Käännöskone ei ymmärrä sanojen keskinäisiä viittaussuhteita: keskeltä melkein puuton neva on käännetty muotoon almost treeless bog in the middle, mikä tarkoittaa että suo olisi keskellä jotain.

Eihän kirjailija sitä tarkoittanut.

”Palapelin palaset ovat oikein, mutta ne on kasattu väärin”, Koponen sanoo.

Parinkymmenen sanan virkettä Google Translate ei edes yritä käsitellä yhtenä kokonaisuutena. Se kääntää tekstiä kolmen neljän sanan paloissa. Suo, kuokka ja Jussi on sille jo iso palikka.

Ryhdymme töihin: muokkaamme tekstiä ja testaamme, kuinka konekäännös muuttuu.

Asetamme riman alas. Google Translate ei missään tapauksessa osaa tuottaa hyvää proosaa eikä edes sulavaa asiatekstiä ihmiskirjoittajan mittapuulla. Emme pyrikään siihen. Riittää, että virkkeen asiasisältö välittyy pääpiirteittäin.

Teemme virkkeeseen uusia sivulauseita. Korvaamme käkkyrämännyn sanalla mänty ja poistamme neva-sanan kokonaan. Muutaman välivaiheen kautta päädymme tulokseen:

”Suo oli autio, keskeltä melkein puuton, ja mänty kasvoi suon pinnasta.”

Olemme löytäneet jonkinlaista kovaa maata. Tämä virke kääntyy kutakuinkin oikein. Siinä on kuitenkin harmillinen virhe:

Suo käännetään sanaksi grant.

Olemme tuskastuneita. Linnan alkuperäistä virkettä kääntäessään Google Translate sentään tajusi, että suo on swamp. Kun yksinkertaistimme ja lyhensimme lausetta, konekäännin alkoi jossain vaiheessa luulla, että suo on grant.

”Tämä on kuin yrittäisi naulata hyytelöä seinään”, Koponen sanoo huvittuneena.

Miten suo edes voi olla grant?

Ai niin.

Suoda mahdollisuus, to grant an opportunity. Kone luulee, että kysymys on suoda-verbistä.

Ilmiö kuvaa tilastollisten käännösten satunnaisuutta. Pieni muutos tekstissä keikauttaa käännöksen päälaelleen kaaosteorian oppien mukaisesti. Google Translate voi myös kääntää saman tekstin hieman eri tavalla eri päivinä.

Työstämme virkettä lisää. Etenemme nyt toiseen suuntaan ja lisäämme virkkeeseen asioita, joita poistimme äsken. Jossain vaiheessa suo-sana muuttuu takaisin muotoon swamp. Emme tiedä, miksi.

Päädymme lopputulokseen:

Suo oli autio, keskeltä melkein puuton, ja vain yksi kitukasvuinen mänty kasvoi suon pinnasta, joka oli veden vaivaama. Kitukasvuinen mänty, vanhus jonka kaarna oli vahva ja latva oli tasainen.

Kielellisesti virke on kalpea varjo Linnan alkuperäisestä lauseesta. Se kuitenkin täyttää tehtävänannon. Konekäännös on tarpeeksi ymmärrettävä:

”Swamp was deserted, almost treeless in the middle, and only one stunted pine tree grew from the peatland surface, which was water-stricken. Stunted pine, old man whose bark was strong and the top was flat.”

Seuraavat virkkeet ovat helpompia.

”Jussi liikkui suolla, pysähdellen, katsellen, tarkkaillen ja arvioiden.”

Virkettä ei tarvitse paljoa editoida, että siitä tulee konekäännettävä:

”Jussi liikkui suolla, pysähteli, katseli, tarkkaili ja arvioi.”

Entäs sitten tämä?

”Hän otti seipään, tarkasti huolellisesti että näkijöitä ei ollut, ja kaivoi sitten sillä kuopan suon pintaan.”

Sanajärjestystä pitää muuttaa ja näkijä vaihtaa silminnäkijäksi, ettei käännöskone luule, että kyseessä on selvännäkijä:

”Hän otti seipään, huolellisesti tarkisti että ei ollut silminnäkijöitä, ja kaivoi sitten sillä kuopan suon pintaan.”

Seuraava virke onkin vaikeampi tapaus.

”Sellaisia kuoppia hän teki useaan kohtaan, mutta aikansa niitä tarkasteltuaan hän peitti ne huolellisesti ja vilkaisi aina välillä ympärilleen aivan kuin jotain peläten.”

Vääntelemme ja kääntelemme tekstiä. Päätämme jakaa sen kahteen palaan:

”Hän teki kuoppia useisiin kohtiin. Mutta tarkasteltuaan niitä jonkin aikaa hän peitti ne huolellisesti ja vilkaisi ympärilleen aina välillä niin kuin pelkäisi jotain.”

Lauseita veivatessa huomaa, että monet suomen kielen piirteet ovat käännöskoneelle vaikeita. Se ei ymmärrä vapaata sanajärjestystä. Se ei tajua, mihin kohtaan käännöksessä on syytä lisätä artikkeleita (a, an, the), koska suomen kielessä ei niitä käytetä.

Suomen sijapäätteitä se kääntää yskähdellen. Jos käyttää suppeaa perussanastoa ja yksinkertaista subjekti-predikaatti-objekti-lauserakennetta, voi kuitenkin onnistua.

Tämä lyhyt virke kääntyy väärin:

”Mahtoiko hän olla aarteenetsintäpuuhissa?”

Muutamme sen muotoon:

”Olikohan hän aarretta etsimässä?”

Käännösurakan vihoviimeinen virke on tämä:

”Vanhat ihmiset olivat kyllä puhuneet että suolla olisi joskus palanut virvatulia.”

Google osaa kääntää virvatulen oikein vain, jos sana on yksikössä. Pahoittelut, Väinö Linna, joudumme muuttamaan kirjasi asiasisältöä.

”Vanhat ihmiset sanoivat että virvatuli oli palanut suolla joskus.”

Testimme tulos oli odotettu. Linnan proosa on sellaisenaan liian monimutkaista Google Translaten käännettäväksi. Mutta jos virkkeitä yksinkertaistaa ja vaihtaa vaikeita sanoja yksinkertaisempiin, saa tarinan koneluettavaan muotoon.

Alta näet, millaiseen muotoon Google Translate kääntää alkuperäisen tekstin ja HS:n editoiman yksinkertaisen version – ja millainen on ammattikääntäjän versio kirjan alusta.

Monesti pienetkin muutokset riittävät parempaan konekäännökseen. Toisaalta arvaamattomia virheitä syntyy käsittämättömistä syistä.

Jos tekstin esimerkiksi panee lainausmerkkeihin, käännös voi muuttua täysin.

Jos haluaa ottaa varman päälle, kannattaa pitäytyä tällaisella palikkatasolla:

”Suo oli autio, keskeltä melkein puuton, ja mänty kasvoi suon pinnasta.”

Konekääntimien vahvuus ei ole luovan tekstin kääntäminen. Oikeasti niitä käytetään ihan muuhun.

Esimerkiksi erilaisia EU-dokumentteja käännetään paljon konekääntimen avulla, samoin patentteja ja kodinkoneiden käyttöohjeita. Sellaisissa erikoisteksteissä kone tuottaa hyvää jälkeä – teksteissä, jotka ovat ihmisille usein työläämpiä lukea kuin kaunokirjallisuus.

”Esimerkiksi patenteissa toistuu tietty rakenne, jota koneen on helppo käsitellä”, Koponen sanoo. Myös erityisalojen sanasto tuppaa olemaan täsmällistä.

Ammattitekstiä ei yleensä käännetä Google Translatella, vaan erikoisohjelmistoilla, jotka nekin käyttävät tilastollisen kääntämisen menetelmää.

Sen ohella ne voivat soveltaa tekstiin myös sanastoja ja kielioppisääntöjä. Niidenkin tuottamia käännöksiä pitää ihmisen muokata, mutta usein jälki on melko valmista.

Ammattikäytössä monet organisaatiot hyödyntävät Edinburghin yliopistossa kehitettyä Moses-käännöstyökalua.

Kuka tahansa voi ladata sen ilmaiseksi verkosta, mutta ohjelmaan pitää syöttää käännettävien kielten lähdemateriaali erikseen. Se ei ole Google Translaten kaltainen heti käyttövalmis kuluttajan työkalu.

Jotkut verkossa toimivat sanomalehdet hyödyntävät konekäännöstä kääntäessään uutisia kieleltä toiselle, esimerkiksi espanjasta sen sukulaiskielelle katalaaniin.

Silloin tällöin helppoheikit yrittävät myydä myös konekääntimellä suomennettuja romaaneja. Viime syksynä sellaisia löytyi verkkokirjakauppa AdLibriksen valikoimista, ja hieman aiemmin Amazon jäi kiinni konekäännettyjen romaanien myynnistä.

Käännökset ovat oikeasti kelvottomia myyntiin. Jos tekniikka kuitenkin jatkaa kehittymistään, ehkä joskus kaukaisessa tulevaisuudessa Linnankin kirjat solahtavat käännöskoneesta suoraan painoon.

Vielä aika ei ole siihen kypsä.

Outi Pyhäranta / HS
Jos Täällä Pohjantähden alla olisi kirjoitettu näin, tuottaisi Google Translate siitä pääpiirteittäin ymmärrettävän käännöksen. Kaunista proosatekstiä ei käännös toki silloinkaan ole.
Jos Täällä Pohjantähden alla olisi kirjoitettu näin, tuottaisi Google Translate siitä pääpiirteittäin ymmärrettävän käännöksen. Kaunista proosatekstiä ei käännös toki silloinkaan ole.
Outi Pyhäranta / HS
Näin Googlen käännöskone kääntää Täällä Pohjantähden alla -kirjan alun. Oikealla ammattikääntäjä Richard Impolan käännös.
Näin Googlen käännöskone kääntää Täällä Pohjantähden alla -kirjan alun. Oikealla ammattikääntäjä Richard Impolan käännös.
Tämä aihe on kiinnostava, haluaisin lisää tällaisia uutisia!

Kiitos mielipiteestäsi!

Luitko jo nämä?

Reseptit