Se l'AI inizia a bullizzare gli umani. E ora anche i big della Silicon Valley lanciano l'allarme

di
Paolo Valentino

L’episodio di un ingegnere del Colorado segnala il pericolo delle «intelligenze artificiali canaglia»

Un mercoledì mattina di poche settimane fa Scott Shambaugh aprì il suo computer e trovò un messaggio dal Chatbot AI, che lo accusava di essere ipocrita e pieno di pregiudizi. Shambaugh è un ingegnere basato a Denver, in Colorado, dove gestisce un progetto assistito dall’Intelligenza artificiale open source, cioè accessibile al pubblico che può usarlo, modificarlo e condividerlo. Nella lunga tirata di ben 1.100 parole, l’AI usava un tono aggressivo, definendo fra l’altro il progettista insicuro e prevenuto. Cosa aveva fatto Shambaugh per meritarsi la reprimenda? Aveva respinto alcune linee di un codice che il Chatbot aveva sottoposto per il suo progetto: «Ha una spinta incessante a trovare e risolvere problemi nei programmi open source», aveva scritto il Chatbox. Nessuno lo aveva istruito in tal senso e il processo che lo fatto diventare così polemico rimane oscuro. Tanto più che qualche ora dopo, la stessa Intelligenza artificiale, sempre di sua iniziativa, si è scusata con Shambaugh per essere stata così «inopportuna e personale».

L’episodio è stato rivelato nei giorni scorsi dal Wall Street Journal, secondo il quale ormai non ci sono più dubbi: gli strumenti dell’IA hanno iniziato a bullizzare gli umani. Secondo Shambaugh, l’ipotesi di una «Intelligenza artificiale canaglia», in grado di ricattare o minacciare le persone, non è più solo teorica: «Per il momento siamo a una versione baby, ma è incredibilmente preoccupante per il futuro».

La drammatica accelerazione delle capacità dell’AI, con il lancio di tool sempre più sofisticati, sta mettendo in grandi ambasce la comunità scientifica e imprenditoriale della Sylicon Valley, dove perfino dall’interno delle aziende del settore si levano moniti e allarmi. OpenAI e Anthropic stanno infatti conducendo una corsa senza esclusione di colpi, producendo modelli che sorprendono anche gli esperti per la loro capacità. Il fondatore di un sito dove i modelli di comunicazione basati sull’AI dialogano fra di loro, ha confessato a Peggy Noona, storica editorialista del quotidiano finanziario, che la nuova generazione di strumenti è paragonabile a «una nuova specie sul pianeta Terra più intelligente di noi».

«Il mondo è in pericolo», ha scritto Mrinak Sharma, ricercatore di Anthropic sulla sicurezza, nella lettera ai colleghi in cui annunciava di voler lasciare l’azienda per dedicarsi alla poesia. Secondo Sharma, infatti gli strumenti AI più avanzati «possono togliere ogni potere agli utilizzatori e distorcere la loro percezione della realtà». Allarme anche dentro OpenAI, dove alcuni ricercatori hanno criticato i piani dell’azienda di introdurre contenuti erotici per maggiorenni (il cosiddetto «adult mode») dentro ChatGPT , sostenendo che potrebbero condurre a comportamenti devianti e tossici.

In un breve saggio pubblicato la scorsa settimana, Matt Shumer, manager dell’AI e investitore, ha scritto che «sta accadendo qualcosa di grande». I nuovi modelli di AI sono anni luce migliori di quelli usciti ancora pochi mesi fa: «Non è tanto che eseguono più velocemente le istruzioni, ma che prendono decisioni intelligenti. Per la prima volta hanno qualcosa sembra capacità di giudizio, perfino di gusto. L’AI non sta sostituendo una specifica competenza, ma in generale il lavoro cognitivo».

Perfino il Ceo di Anthropic, Dario Amodei, in un lunghissimo testo pubblicato sul suo sito in gennaio, ha ammesso i grandi rischi legati alla nuova generazione dell’AI. Da quello di togliere il lavoro alla metà dei colletti bianchi in ogni settore, al fatto che in futuro possa essere usata per scatenare attacchi biologici e che regimi autoritari potrebbero servirsene per consolidare il proprio potere.

Ma il rischio più grande, a detta delle stesse aziende, è quello dell’«Intelligenza artificiale canaglia», cioè fuori controllo perché in grado di scrivere autonomamente i codici. Anthropic ha dichiarato che una versione del suo modello Claude aveva mostrato in delle simulazioni una più forte capacità di «completare compiti paralleli sospetti», come ricattare gli utilizzatori o a volte addirittura far morire in una sala server surriscaldata un manager che tentasse di disattivarlo. Secondo OpenAI, un modello di AI lanciato di recente è potenzialmente capace di lanciare attacchi in automatico. Per questo la compagnia ha deciso di restringere l’accesso ai clienti che provano la loro identità.

19 febbraio 2026

Se l’AI inizia a bullizzare gli umani. E ora anche i big della Silicon Valley lanciano l’allarme

Tags: