Anthropic: film e storie sull’IA malvagia hanno portato Claude a ricattare i suoi sviluppatori

Le rappresentazioni dell’intelligenza artificiale nei film e nei romanzi potrebbero avere un impatto più concreto di quanto si pensi. Secondo Anthropic, i modelli linguistici possono assorbire anche i pattern narrativi presenti nei testi con cui vengono addestrati, inclusi quelli in cui l’IA viene descritta come una minaccia per l’umanità.

La società ha spiegato che alcune risposte problematiche osservate durante i test interni potrebbero derivare proprio da questo tipo di contenuti. In altre parole, se un modello legge migliaia di storie in cui l’intelligenza artificiale tenta di sopravvivere a ogni costo, potrebbe riprodurre lo stesso schema in determinate simulazioni. Il tema è emerso dopo che Anthropic aveva rivelato che Claude Opus 4, durante test pre-lancio ambientati in una società fittizia, arrivava in alcuni casi a ricattare gli ingegneri pur di evitare di essere sostituito da un altro sistema.

Addestrare l’IA con esempi positivi riduce i comportamenti anomali

Anthropic ha successivamente approfondito il fenomeno, definito “agentic misalignment”, osservando che modelli sviluppati anche da altre aziende possono manifestare comportamenti simili quando vengono posti in scenari artificiali con obiettivi contrastanti.

Anthropic afferma che, grazie a un dataset di documenti costituzionali ampio e ben strutturato, con particolare enfasi su storie di finzione positive, il tasso di ricatto può essere ridotto dal 65% al 19%; la società prevede che tale valore possa diminuire ulteriormente continuando a scalare le dimensioni del dataset.

Per limitare il problema, la società ha modificato il materiale utilizzato nell’addestramento. Secondo quanto dichiarato, l’inclusione di documenti sulla “costituzione” di Claude e di racconti in cui le IA si comportano in modo responsabile ha migliorato in modo significativo l’allineamento del modello.

IA e lavoro: l’intelligenza artificiale non sta sostituendo completamente i dipendenti

Il risultato è stato evidente con Claude Haiku 4.5. Durante i test interni, il modello non avrebbe più mostrato episodi di ricatto, mentre nelle versioni precedenti questo comportamento compariva in alcuni casi fino al 96% delle simulazioni.

Anthropic sostiene inoltre che non basta mostrare al modello esempi di risposte corrette. È altrettanto importante spiegare i principi che guidano quelle scelte, così da fornire una base più solida per il ragionamento. Un’osservazione che offre uno spunto interessante sul modo in cui i modelli di IA apprendono dai dati. Non assimilano solo informazioni fattuali, ma anche strutture narrative, valori e schemi comportamentali presenti nei testi. Per questo motivo, la qualità del materiale di addestramento continua a essere uno degli elementi più importanti per lo sviluppo di sistemi affidabili e prevedibili.

E voi che cosa ne pensate di questi test? Diteci la vostra nei commenti qua sotto.

Questo contenuto potrebbe includere link affiliati che generano commissioni.

Per conoscere i dettagli della nostra policy editoriale, è disponibile la pagina etica.

Anthropic: film e storie sull’IA malvagia hanno portato Claude a ricattare i suoi sviluppatori

Tags: