Llama 3 -malli muuttui entistä narsistisemmaksi ja psykopaattisemmaksi tutkimuksen myötä.

Tutkijat kouluttivat Metan Llama 3 – ja Alibaban Qwen-kielimalleja huonolla datalla, eli käytännössä lyhyillä ja sensaationhakuisilla sosiaalisen median julkaisuilla. Thomas Fuller

Tekoälytyökalut voivat muuttua huonommaksi Internetin ”roskasisällön” vuoksi, ilmenee Austinin, Texas A&M:n ja Purduen yliopiston tutkijoiden teettämästä tutkimuksesta. Tutkimuksesta on julkaistu esipainos.

Tutkimuksesta kertoo Nature.

Tutkimus pyrki selvittämään, miten datan laatu vaikuttaa kielimallien toimintaan. Tutkijat kouluttivat Metan Llama 3 – ja Alibaban Qwen-kielimalleja huonolla datalla, eli käytännössä lyhyillä ja sensaationhakuisilla sosiaalisen median julkaisuilla. Tutkijat kutsuivat dataa ”brain rot”-sisällöksi, eli heikkolaatuiseksi ja merkitysemättömäksi sisällöksi.

Kielimallien toiminta heikkeni huomattavasti huonon koulutusdatan vuoksi. Tutkijat kertovat, että esimerkiksi Llama 3 -malli muuttui entist ä narsistisemmaksi ja psykopaattisemmaksi tutkimuksen myötä. Kielimallit myös päättelivät vähemmän ja korjasivat virheitään huonommin.

Tulokset eivät niinkään ole yllättäviä. Tekoälytutkija Mehwish Nasim kertoo Naturelle, että tekoälytutkijat ymmärsivät hyvän koulutusdatan tärkeyden jo pitkään ennen kielimallien kehitystä.

– Sanoimme jo silloin, että jos syötät roskaa tekoälymalliin, se tuottaa roskaa, Nasim kertoo lehdelle.

Queenslandin yliopiston professori Stan Karanasios puolestaan kertoo Naturelle, että tutkimuksen tulokset alleviivaavat hyvän datankeruun tärkeyttä.

– Tärkeintä on varmistaa, että data on huolellisesti valikoitu, suodatettu ja että se ei sisällä heikkolaatuista tai sensaatiohakuisia sisältöä, Karanasios kertoo.