Muutos havaittiin verkosta kerätyn aineiston analyysissä.

Generatiivinen tekoäly on jättänyt lähtemättömän jäljen koko internetiin. Adobe Stock / AOP

Suuri osa internetin sisällöstä on muuttunut muutamassa vuodessa tekoälymallien luomaksi sisällöksi. Tutkijat ennustavat, että kehitys jatkuu samaan suuntaan.

Tällä hetkellä noin 35 prosenttia uusista verkkosivustoista julkaisee tekoälymalleilla luotua tekstiä. 404 Media -verkkouutissivusto kertoo, että tähän tulokseen päätyi joukko Stanfordin yliopiston, Imperial College Londonin ja Internet Archiven tutkijoita. He kokosivat aineistoonsa verkkosivuja ajalta ennen Chat GPT:n julkaisemista eli vuoden 2022 loppua ja sen jälkeen. Aineistojen eroja analysoitiin pitkälle viritetyillä tekstintunnistustyökaluilla.

Tutkimuksen perusteella kielimallien käyttö johtaa ”semanttisen monimuotoisuuden” vähenemiseen eli erilaisten käytettyjen sanojen ja ilmausten määrän vähenemiseen.

Tutkijat uskovat, että muutoksella voi olla vakavia seurauksia. Kun kielimalleilla luotu teksti yleistyy eikä sitä voi erottaa enää ihmisten kirjoittamasta, voi luottamus kaikkeen verkossa olevaan tietoon rapistua. Tämä voi vaikuttaa niin uutisten lukemiseen kuin yhteisöllisyyteen, jos ihmiset vetäytyvät aiempaa eristäytyneempiin yhteisöihin.

Lisäksi tilanne aiheuttaa haasteen myös tekoäly-yhtiöille: uusien kielimallien koulutusaineistoiksi ei jatkossa ole enää saatavissa puhtaasti ihmisten luomia suuria tekstimassoja helposti verkosta hakemalla. Tämä voisi pahimmillaan johtaa mallien suorituskyvyn kehityksen romahtamiseen.

Tilaa Mikrobitti-uutiskirje

Maksuton uutiskirje kokoaa kahdesti viikossa hyödyllisimmät testit, oppaat, vinkit ja digiuutiset.