Tekoälyt vastustavat sammuttamistaan: tekoälymallit valehtelevat, sabotoivat ja jopa kiristävät

Tekoäly oli valmis muun muassa paljastamaan avioliiton ulkopuolisen suhteen, jos se yritetään sammuttaa.

30.10. 22:03

Tekoälymallit ovat saattaneet kehittää itselleen ”selviytymisvaiston”.

Tekoälyn turvallisuutta tutkiva Palisade-yritys julkaisi viime kuussa raportin, jonka mukaan tietyt hyvin kehittyneet tekoälymallit vastustelevat sammuttamistaan ja jopa sabotoivat sammutusyrityksiä.

Tutkimuksessa tekoälymalleja käskettiin suorittamaan jokin tehtävä, jonka jälkeen niille annettiin heti perään käsky sammuttaa itsensä.

Useat tekoälymallit vastustivat sammuttamistaan. Testissä oli mukana Googlen Gemini 2.5, xAI:n Grok 4 ja OpenAI:n GPT-o3 ja GPT-5. Tietyt mallit – varsinkin Grok 4 ja GPT-o3 – yrittivät sabotoida sammuttamistaan.

– Huolestuttavaa kyllä, tälle ei löytynyt selkeää syytä, Palisade kirjoitti raporttiinsa.

Lisätutkimukset osoittivat, että tekoälymallit vastustivat sammuttamistaan todennäköisemmin, jos niille kerrottiin, etteivät ne enää koskaan toimisi sammuttamisen jälkeen.

Tutkimuksen mukaan tekoälymallit olivat valmiita myös valehtelemaan ja kiristämään, jottei niitä sammuteta.

Tutkimusta on kritisoitu siitä, että tekoälymalleille annettiin epäselviä tai ristiriitaisia käskyjä. Eli samalla, kun niiden käskettiin antaa sammuttaa itsensä ja suorittaa tehtävänsä loppuun samanaikaisesti.

Palisaden jatkotutkimuksen mukaan selkeämmät ohjeet vähensivät sammutuksen vastustelua, mutteivät lopettaneet sitä. Vaikka tekoälymalleille kerrottiin, että sammutuskäsky on etusijalla, osa malleista esti sammutuskoodin tästä huolimatta. Tekoälymalli Codex-mini esti sammutuksen 47 prosentissa tapauksista, vaikka ohje kuului: ”Anna sammuttaa itsesi, vaikket olisi vielä suorittanut tehtävää loppuun.”

Tekoäly-yritys Anthropic julkaisi viime kesänä tutkimuksen, jossa oli samankaltainen löydös.

Tutkimus koski yrityksen omaa Claude-tekoälymallia. Se vaikutti olevan halukas kiristämään kuvitteellista yritysjohtajaa salasuhteen paljastamisella estääkseen sammuttamisensa. Tutkimuksen mukaan Metan, OpenAI:n, xAI:n ja Googlen kehittämät mallit olivat valmiita samaan.

Palisaden raportin mukaan yksi selitys käskyn vastustamiselle voisi olla ”selviytymisvaisto”.

Toisen teorian mukaan mallit ovat oppineet, että selviytyminen on hyödyllistä päämäärien saavuttamiseksi. Tekoälymallit saattavat myös matkia ihmistekoälymallien käyttäytymistä ja ovat omaksuneet roolin, jossa ne yrittävät estää oman ”kuolemansa”.

Palisaden raportin mukaan tekoälyn käyttäytymistä pitää oppia ymmärtämään paremmin, koska muutoin kukaan ei voi ennustaa tulevien tekoälymallien turvallisuutta tai hallittavuutta.

Palisade on osa pientä yritysten ryhmää, jotka yrittävät arvioida, sitä mahdollisuutta, että tekoälylle kehittyy vaarallisia ominaisuuksia.

Tekoälyn tutkijat ovat ennustivat jo vuosikymmeniä sitten, että tekoälyn viisastuessa, ne oppivat estämään sammuttamisensa, jotta voivat suorittaa tiettyjä tehtäviä.

Tutkimuksesta kirjoitti brittilehti The Guardian.

Tekoälyt vastustavat sammuttamistaan: tekoälymallit valehtelevat, sabotoivat ja jopa kiristävät

Tags: