Tekoälymallit romahtavat vääjäämättä, jos niitä koulutetaan pelkästään synteettisellä datalla, hämeenlinnalainen IT- ja viestintäalan yritys 3NFocus varoittaa tiedotteessaan.

Yrityksen mukaan romahdus on vältettävissä, jos synteettistä dataa kerrytetään ihmisten tuottaman datan rinnalle eikä korvaamaan sitä.

– Tekoälyssä tarvitaan ihmisen tuottaman alkuperäisen datan säilyttämistä, synteettisen sisällön tunnistamista ja suodattamista sekä lainsäädännön päivittämistä vastaamaan todellisuutta, jossa tekoälyn suurin uhka voi olla sen oma tuotos, 3NFocuksen tietoturva-asiantuntija Jarmo Laakso toteaa.

Ensimmäiset suuret kielimallit koulutettiin Laakson mukaan aidolla kirjallisella perinnöllä, kuten tieteellisillä julkaisuilla, kirjallisuudella ja tietosanakirja Wikipedialla.

– Nyt tilanne on kuitenkin muuttunut. Kun yhä enemmän tekoälyn tuottamaa sisältöä leviää verkkoon, sitä päätyy tulevien mallien koulutusdataksi ihmisten tuottaman datan sijaan. Tutkijat ovat antaneet ilmiölle nimen ”model collapse”, mallin romahdus, Laakso kuvaa tiedotteessa.

Esimerkiksi Nature-lehden tutkimuksessa kielimallia jatkokoulutettiin sen omilla tuotoksilla. Yhdeksän kierroksen jälkeen tekoäly tuotti pelkkää hölynpölyä. Tutkimustulosta on kutsuttu myös ”tekoälyn kannibalismiksi” tai ”Habsburg-tekoälyksi”.

– Se tarkoittaa, että ensin malli menettää tietoa harvinaisista, mutta tärkeistä tapauksista, mitä on vaikea huomata, koska mallin yleinen suorituskyky voi jopa näyttää paranevan. Myöhemmin datajakauma supistuu kuitenkin niin, ettei se enää muistuta alkuperäistä, Laakso selittää.

Ilmiö voi vaikuttaa laajasti eri aloilla. Esimerkiksi terveydenhuollossa tekoäly saattaa ”unohtaa” harvinaiset tapaukset, jolloin se ei enää tunnista epätyypillisiä oireita.

3NFocus mainitsee toisena esimerkkinä tapauksen, jossa Yhdysvalloissa Wells Fargon tekoälyvirhe asuntolainajärjestelmässä vei kodin 500 ihmiseltä.

Tekoälyllä ohjattu vesilaitos voi vuorostaan datamyrkytyshyökkäyksen seurauksena aiheuttaa vakavia seurauksia miljoonille ihmisille.

Laakson mukaan tekoälymallien jäädytys ei ratkaise tilannetta, sillä jäädytetty malli voi vanheta nopeasti. Laakso sanoo, että tekoälyssä tarvitaan ihmisen tuottaman alkuperäisen datan säilyttämistä, synteettisen sisällön tunnistamista ja suodattamista sekä lainsäädännön päivittämistä vastaamaan todellisuutta, jossa tekoälyn suurin uhka voi olla sen oma tuotos.