Viime kuukaudet kuumana käynyt tekoälykeskustelu sai tällä viikolla uuden vaihteen, kun tekoäly-yhtiö Open AI julkaisi GPT-4:n, uusimman version keskustelevasta tekoälysovelluksestaan.
GPT-4 on ainakin osittain kuluttajien käytettävissä viime vuoden lopulla suosituksi tulleen Chat GPT -alustan maksullisessa versiossa. Alustan maksuttomassa versiossa käytössä on edelleen GPT-3,5.
Open AI:n mukaan erot tekoälysovelluksen edellisen ja uuden version välillä voivat olla tavallisessa keskustelussa melko huomaamattomia. Eroja kuitenkin löytyy, kun tekoälylle annetut tehtävät ovat tarpeeksi vaativia.
Yhtiön mukaan GPT-4 kykenee käsittelemään aiempaa vivahteikkaampia ohjeita ja on edeltäjäänsä luotettavampi, luovempi, tarkempi sekä turvallisempi.
Yhtiö sanoo blogissaan, että GPT-4 vastaa ”82 prosenttia aiempaa epätodennäköisemmin sopimattomasti ja tuottaa 40 prosenttia aiempaa todennäköisemmin paikkansa pitäviä vastauksia”.
Tästä huolimatta monet keskustelevat tekoälyn aiemman version ongelmista ovat edelleen olemassa. Niistä kenties keskeisin on se, että tekoäly keksii edelleen joitain asioita päästään, eli hallusinoi.
Open AI:n toimitusjohtaja Sam Altman sanoi Twitterissä, että GPT-4:ssä tuntuu edelleen vaikuttavammalta ensimmäisellä käyttökerralla kuin sen jälkeen, kun tekoälyn kanssa on ehtinyt viettää hieman aikaa.
Aivan kaikki GPT-4:n ominaisuudet eivät vielä ole kuluttajien testattavissa. Open AI:n mukaan GPT-4 kykenee käyttämään kuvia vastaustensa syötteinä, ja esimerkiksi luokitella, analysoida ja kuvailla kuvan sisältöä. Kuluttajien käytössä olevassa versiossa kuvallisia syötteitä ei kuitenkaan voi vielä kokeilla.
Yhdessä yhtiön antamassa esimerkissä GPT-4 rakentaa toimivan yksinkertaisen verkkosivun pelkän käsin piirretyn kuvan perusteella.
Pian GPT-4:n julkaisun jälkeen Twitterissä jo esiteltiin, kuinka tekoälysovelluksen uusi versio voi lyhyessä ajassa kirjoittaa koodin yksinkertaisille tietokonepeleille, kuten perinteiselle matopelille tai pöytätenniksen kaltaiselle Pongille.
Open AI:n mukaan GPT-4 pystyy käsittelemään myös edeltäjäänsä suurempia datamääriä. Yhtiön mukaan GPT-4 pystyy käsittelemään jopa 25 000 sanan mittaisia tekstejä, kun tekoälyn edelliseen versioon pohjautuva Chat GPT pystyy käsittelemään vain noin 3 000 sanan tekstejä.
HS:n testissä GPT-4 ohjattiin verkko-osoitteeseen, jossa Suomen nykyinen hallitusohjelma on nähtävillä kokonaisuudessaan. Tekoäly poimi hallitusohjelmasta monia paikkansa pitäviä laajoja linjauksia sekä yksityiskohtia, mutta kovin luotettava se ei ollut.
Esimerkiksi hallitusohjelman Nato-linjauksista tekoäly poimi monia oikeita asioita, mutta samaan aikaan väitti kivenkovaa, että hallitusohjelman mukaan Suomi ei hae Nato-jäsenyyttä tällä hallituskaudella. Sellaista kirjausta hallitusohjelmasta ei kuitenkaan löydy.
Tekoälylle suoraan annettujen tekstien käsittelyssä GPT-4 sen sijaan vaikuttaa olevan melko pätevä. Se tiivisti nopeasti ja hyvin HS:n tuoreen uutisen Finanssivalvonnan (Fiva) Nordean rahanpesunvalvonnasta löytämistä puutteista.
Lue lisää: Pankkivalvoja: Nordeaa saatettiin käyttää jättimäisessä Venäjän rahanpesuoperaatiossa
Kun The New York Times (NYT) teki tekoälysovellukselle vastaavan testin englanniksi, se tuotti lehden mukaan tarkan ja paikkansa pitävän tiivistelmän lähes joka kerta. NYT:n testissä tekoäly myös tunnisti virheen, jos sen oma tiivistelmä syötettiin sille takaisin, mutta siihen oli lisätty asiaan kuulumaton lause.
HS:n suomen kielellä tekemissä vastaavissa testeissä GPT-4 huomasi, kun sille takaisin syötetyssä tiivistelmässä väitettiin tahallaan virheellisesti, että Fiva antoi pankeille sakkorangaistuksen. Todellisuudessa Fiva ei antanut pankeille rangaistuksia, koska tutkinnat vanhentuivat.
Tekoäly totesi, että tiivistelmässä on virhe, ja korjasi asian oikein lähdeaineiston perusteella.
Hienovaraisempia muutoksia tekoäly ei kuitenkaan saanut kiinni. Kun tekoälylle syötettiin takaisin tiivistelmä, jossa väitettiin virheellisesti Nordean myöntäneen Fivan havainnot suurimmalta osin, se ei ymmärtänyt kyseessä olevan virhe. Todellisuudessa Nordea kiisti Fivan havainnot suurimmilta osin.
Tekoäly ei myöskään löytänyt ongelmaa, kun sille takaisin syötetyssä tiivistelmässä sanottiin Fivan väittäneen suoraan, että Nordeaa on käytetty venäläisen rahan pesussa. Todellisuudessa Fivan mukaan Nordeaa on voitu käyttää välikappaleena venäläisen rahan pesussa.
Yksi Open AI:n itsensä esiin nostamista selvistä eroista tekoälyjen välillä on uuden GPT-4:n kyky läpäistä erilaisia kokeita, joita yhtiö luettelee verkkosivuillaan pitkän listan.
Yhtiön tekemien testien mukaan tekoälysovellus olisi parhaan kymmenen prosentin joukossa esimerkiksi monissa Yhdysvaltojen osavaltiossa käytössä olevassa asianajajan Bar-pätevyyskokeessa, ja aivan parhaiden joukossa biologian olympialaisiksi kutsutun biologiakilpailun kokeessa.
Tekoälyn aiempi versio ei päässyt läpi asianajajan pätevyyttä mittaavasta Bar-kokeesta.
HS poimi tekoälyn ratkaistavaksi muutaman tehtävän viime syksyn ylioppilaskokeista. Valtaosa GPT-4:n kouluttamisessa käytetystä aineistosta on ajalta ennen vuoden 2021 syksyä, joten sen ei luultavasti pitäisi suoraan löytää viime syksyn ylioppilaskokeiden vastauksia verkosta.
HS:n testissä GPT-4 selviytyi biologian, historian ja pitkän matematiikan ylioppilaskokeista satunnaisesti poimituista tehtävistä hyvin.
Tekoälyn tekemiä tehtäviä eivät ole tarkistaneet asiantuntijat, mutta Ylioppilastutkintolautakunnan sivuilta löytyviin hyvän vastauksen piirteisiin verrattuna GPT-4 vaikutti suoriutuvan tehtävistä varsin hyvin pistein.
Tekoälysovelluksen uusi versio väläyttelee ainakin mediatietojen mukaan myös uudenlaista asiantuntemusta monista asioista, muun muassa lääketieteestä tai lainsäädännöstä.
The New York Timesin mukaan Pohjois-Carolinan yliopiston lääketieteen apulaisprofessori ja kardiologi Anil Gehi kuvaili Open AI:n tekoälylle päivää aiemmin vastaanottamansa potilaan terveyshistorian, joka sisälsi paljon sellaista lääketieteellistä termistöä, jota tavallisen ihmisen ei voi olettaa ymmärtävän.
Kun Gehi kysyi tekoälysovellukselta miten potilasta tulisi hoitaa, se antoi hänen mukaansa täydellisen vastauksen, eli suositteli juuri niitä toimia, joihin Gehi kollegoineen olivat itsekin päätyneet.
”Robottiasianajajaksi” itseään kutsuvan Donotpay-startupin toimitusjohtaja Joshua Browder taas kertoi Twitterissä, että yhtiö selvittää GPT-4:n käyttämistä esimerkiksi automaattipuheluihin liittyvien oikeuskanteiden kirjoittamiseen yhdellä napinpainalluksella.
”GPT-3,5 ei ollut tarpeeksi hyvä, mutta GPT-4 hoitaa homman erittäin hyvin”, Browder kirjoitti.
Open AI:n mukaan GPT-4 on edeltäjäänsä parempi myös luovissa tehtävissä. Kun HS pyysi tekoälysovellusta kertomaan Urho Kekkosta käsittelevän vitsin, GPT-4 vastasi näin:
”Miksi Urho Kekkonen meni saunaan?
Koska hän halusi "lämmitellä" poliittisia suhteita!”
Kunnon vitsiniekalle ominaiseen tapaan tekoäly myös selitti heti perään, että vitsissä viitataan Kekkosen tunnettuihin taitoihin diplomatian saralla, sekä hänen maineeseensa suurena saunakulttuurin ystävänä.
Seuraavaksi HS pyysi GPT-4:ää kirjoittamaan humoristisen kohtauksen, jossa Uuno Turhapuro ja Härski Hartikainen yrittävät opetella käyttämään Exceliä.
Tekoälysovellus onnistui vangitsemaan kohtaukseen joitakin piirteitä, joiden voitaisiin ajatella kuulostavan Vesa-Matti Loirin tunnetun roolihahmon tyyliltä. Tekoälyn tekstissä Uuno esimerkiksi kutsuu taulukkolaskentaohjelmaa ”Excelliksi”.
Vaikka kohtausta tuskin voi kutsua sanataiteeksi, onnistui GPT-4 rakentamaan sen lopetuksesta jokseenkin humoristisen.
Voit lukea GPT-4:n tuottaman tekstin kokonaisuudessaan tästä.