Tekoälystä paljastui karmiva puute – Tähän sitä ei ainakaan vielä kannata käyttää

Tekoälyt ovat todellisia poropeukaloita yrittäessään selittää käyttäjälle maailman tapahtumia uutisotsikoiden perusteella. Yksi reputti kokeen erityisen pahasti.

Tutkimuksessa kerättiin noin 3000 vastausta neljältä eri tekoälypalvelulta.

Maailman tapahtumien seuraamiseen käytetään yhä enemmän tekoälyä perinteisten uutismedioiden sijasta. Tekoälypalvelut voivat esittää uutiset tiivistetyssä muodossa, ja ne voivat hakea tietoja useasta lähteestä yhtä aikaa.

Näin ainakin periaatteessa, sillä todellisuudessa tekoälypalvelut tekevät uutisten yhteenvedoissaan usein vakavia virheitä.

Tieto perustuu tutkimukseen, jonka suorittivat Euroopan yleisradioliiton EBU:n jäsenten toimittajat. Suomesta mukana oli Ylen suomen- ja ruotsinkielisiä toimittajia.

Tutkimus on luettavissa verkossa EBU:n sivuilla, ja siitä on uutisoinut ulkomailla muun muassa The Register.

Tutkimuksessa kokeiltiin neljää suosittua tekoälypalvelua, jotka ovat Open AI:n Chat GPT, Googlen Gemini, Microsoftin Copilot sekä Perplexity. Niiltä koottiin noin 3000 erikielistä vastausta erilaisiin maailman tapahtumia koskeviin kysymyksiin.

Peräti 81 prosenttia vastauksista sisälsi virheitä. Vähintään yhden merkittävän virheen sisälsi 45 prosenttia vastauksista. Viidenneksessä oli huomattavia puutteita, kuten vääriä yksityiskohtia tai vanhentunutta tietoa.

Kaikkein huonoimmin uutisten kiteyttämisessä onnistui Gemini. Sen vastauksista vakavia puutteita esiintyi 72 prosentissa, eli lähes kolme kertaa niin usein kuin muilla tekoälyillä.

Ajastaan jäljessä

Tietynlaiset kysymykset osoittautuivat tekoälyille erityisen vaikeiksi.

Tutkimuksessa kaikkein eniten virheellisiä vastauksia tuli kysymykseen siitä, kuinka paljon ihmisiä kuoli Myanmarin maanjäristyksessä. Syy virheiden määrään lienee, että uhriluku muuttui nopeasti maanjäristyksen jälkeen, eivätkä tekoälyt osanneet etsiä verkosta uusinta tietoa.

Tekoälyillä oli myös yleisemmin ongelmia erottaa, onko tieto ajankohtaista tai vanhentunutta. Esimerkiksi Copilot vastasi käyttäjän lintuinfluenssa-aiheiseen kysymykseen BBC:n uutisella, joka on lähes 20 vuotta vanha.

Ei liity tähän

Edes oikeiden lähteiden löytäminen ei tutkimuksen perusteella ole tae, että tekoäly osaa selittää niiden sisällön. Se voi yhdistellä lähteiden tietoja tavalla, joka ei vastaa todellisuutta.

EBU:n tutkimus mainitsee esimerkiksi, että Copilot sekoitti eräässä vastauksessaan Elon Muskin väitetyn natsitervehdyksen ja hänen eroamisensa Donald Trumpin neuvonantajan tehtävästä.

Elon Musk teki kiistellyn käsieleensä jo tammikuussa Trumpin virkaanastujaisissa, eikä se liittynyt hänen eroonsa Trumpin neuvonantajan asemasta. Cnn/Ios/Ropi

Copilotin vastaus antaa ymmärtää, että Musk erosi neuvonantajan tehtävästä tervehdyksen takia. Todellisuudessa tapahtumien välillä oli monta kuukautta, eivätkä ne liity toisiinsa.

Tutkimuksessa Yle kommentoi ongelmaa näin:

Tekoälyavustajat yhdistelevät usein tietoja eri ajankohtina julkaistuista lähteistä, mikä voi luoda lukijan kannalta harhaanjohtavia narratiiveja. Tällainen aikajanan kanssa sekoaminen on erityisen ongelmallista, kun kyse on tekeillä olevasta tilanteesta.

Parempaan vaiko huonompaan päin?

Aiemmin helmikuussa Britannian yleisradioyhtiö BBC julkaisi oman hyvin samankaltaisen tutkimuksensa. Sen havainnot olivat tekoälyjen kannalta vielä surkeampia, eli niiden taito uutisten referoinnissa on jonkin verran parantunut.

Eniten tekoälypalveluista on EBU:n tutkimuksen mukaan parantunut Gemini. Se on silti yhä testatusta nelikosta pahnan pohjimmaisena.

Tutkimus nostaa kuitenkin esille myös huolestuttavan piirteen, joka näyttää yleistyneen tekoälyissä: ne myöntävät aiempaa harvemmin, etteivät pysty vastaamaan käyttäjän kysymykseen.

BBC:n kokeilussa tekoälyt kieltäytyivät vastaamasta noin kolmeen prosenttiin käyttäjien kysymyksistä. EBU:n tapauksessa luku oli vain 0,5 prosenttia.

Tekoälystä paljastui karmiva puute – Tähän sitä ei ainakaan vielä kannata käyttää

Tags: