Tilastokeskus on havainnut, että jotkut ihmiset tyytyvät hakukoneiden tekoäly­tiivistelmiin, joiden tiedot eivät pidä paikkaansa. Tilastokeskus aikoo ratkaista asian tekoäly­tulkilla.

käsi hiirellä ja näytöllä googlen haku.

Avaa kuvien katselu

Tekoäly voi antaa uskottavan tuntuisia vastauksia, joihin on netissä helppo tyytyä. Kuva: Petri Aaltonen / Yle

  • Tilastokeskus epäilee, että Googlen tekoälytiivistelmät ovat vähentäneet sen verkkosivujen kävijämääriä 17 prosenttia.
  • Ylijohtaja Ville Vertasen mukaan tekoälyn antamat vastaukset ovat usein vääriä, koska tekoäly ei pääse suoraan tietokantoihin.
  • Tilastokeskus kehittää ratkaisuksi tekoälytulkiksi kutsuttua rajapintaa, joka päästää tekoälyn lukemaan tilastoja.
  • Ratkaisu helpottaisi luotettavan tilastotiedon löytämistä ja käyttöä. Kokeilu alkaa ensi vuonna.

Tämä on tekoälyn avulla tuotettu, toimittajan tarkistama tiivistelmä.

Kun Googlen suomenkielisiin hakutuloksiin ilmestyi tänä vuonna tekoälytiivistelmä, Tilastokeskuksen nettisivujen latausmäärät alkoivat laskea.

Tilastokeskuksesta kerrotaan Ylelle, että tammi- ja marraskuun välillä sen verkkosivuille tuli Googlen kautta 17 prosenttia vähemmän kävijöitä kuin viime vuonna vastaavaan aikaan.

Se on merkki siitä, että osa tietoa hakevista henkilöistä tyytyy tekoälytiivistelmään, eikä hakeudu tarkemman tilastotiedon äärelle, arvioi ylijohtaja Ville Vertanen Tilastokeskuksesta.

Tekoälyapureiden antama tieto on kuitenkin väärää, sillä apuri ei hae tietoa tilastotietokannasta. Sen sijaan se koostaa vastauksen välimuististaan, Tilastokeskuksen sivuilla olevista teksteistä tai jostain muualta, sanoo Vertanen.

– Tilastojen luonteen vuoksi niistä pitäisi aina hakea tuorein tieto, mutta tekoälyapuri ei välttämättä tee sitä. Olemmekin huomanneet, että hakuapureiden tiedot ovat usein vääriä, Vertanen sanoo.

Hänen mukaansa tilanne on huolestuttava eikä rajoitu vain Suomeen. Tekoälyapureiden ongelmat ovat parhaillaan kiivas keskustelunaihe tilastotieteilijöiden kansainvälisillä foorumeilla.

Tekoäly tarvitsee tilastotietoon tulkin

Tilastokeskus onkin jo alkanut kehittää asialle ratkaisua.

Vertasen mukaan Tilastokeskus on viimeiset 20 vuotta optimoinut verkkosivujaan ja avoimia tietokantojaan ihmisille ja hakukoneille. Nyt ne on optimoitava myös tekoälylle.

Tilastokeskuksen on tehtävä tietokannoille tulkki, joka kertoo tekoälylle, miten tilastoja on luettava.

Sen avulla tekoäly pystyisi antamaan käyttäjälleen tilastotietoon pohjautuvia vastauksia kysymyksiin, mikä helpottaisi tiedon löytymistä, kuvailee Vertanen.

– Tekoäly osaisi hakea tietokannasta vastauksen esimerkiksi kysymykseen ”miten inflaatio on kehittynyt Suomessa viimeisen kolmen vuoden aikana”, Vertanen kertoo.

Tekniseksi ratkaisuksi on ehdolla MCP (Model Context Protocol), joka on rajapinta tietomassojen ja suurten kielimallien välillä.

”Helpottaa kaikkia tilastonkäyttäjiä”

Jos Tilastokeskus onnistuu luomaan tilastotietokantoihin tekoälytulkin, tilastojen käyttäminen helpottuu huomattavasti, arvioi Vertanen.

Tilastokeskuksen tietokannassa on yli 5 500 tietokantakuutiota, joissa on yhteensä kymmeniä miljardeja soluja ja valtava määrä muuttujia. Runsauden vuoksi tietojen löytäminen tietokannoista voi olla vaikeaa.

– Kyllä tämä helpottaa kaikkien tilastonkäyttäjien elämää ja tiedon hyödyntämistä, olit sitten virkakäyttäjä, kansalainen, toimittaja tai tutkija, Vertanen sanoo.

Tilastokeskus aikoo pilotoida tilastotiedon analysointia tekoälyn avulla ensi vuoden aikana.