Ecco perché l’intelligenza artificiale non «capisce» le notizie ma le indovina e quali distorsioni introduce: cosa dice lo studio «La simulazione del giudizio negli LLM», di un gruppo di ricercatori della Sapienza di Roma

Sempre più spesso ci rivolgiamo a modelli linguistici come ChatGPT non per cercare, ma per capire.
«Questo sito è affidabile?», «Questa fonte dice la verità?», «Questa informazione è corretta?».
E non ci fermiamo lì: «Spiegami la guerra in Ucraina», «Riassumi Popper», «Cos’è l’abduzione», «mi fai capire cosa dice questo articolo?». Domande così, ogni giorno, in ogni ambito. Studenti che colmano lacune in vista di un esame. Giornalisti che cercano conferme rapide. Professionisti che «ottimizzano» testi, email, report. E poi docenti, medici, avvocati. Tutti, prima o poi, si rivolgono a un modello linguistico come ci si rivolgeva, un tempo, a un motore di ricerca.
Solo che qui c’è una differenza profonda. Google restituiva risultati: indicava fonti, indirizzava altrove. Gli LLM, invece, simulano la risposta. Ti dicono direttamente cosa pensare. Come se l’atto di giudicare, spiegare, sintetizzare fosse già avvenuto. E il testo che compare, sempre ordinato, fluente, spesso convincente, sembra confermare che è già tutto lì.
Ma non è lì. E soprattutto: non funziona come sembra.

Il punto centrale è che questi strumenti non hanno una rappresentazione del mondo. Non possiedono un criterio interno di verità. Quello che fanno, con stupefacente efficacia, è generare sequenze linguistiche plausibili sulla base di pattern statistici appresi durante l’addestramento. Quando diciamo che «allucinano», non stiamo descrivendo un errore. Stanno facendo esattamente ciò per cui sono progettati. Non sbagliano: eseguono. Predicono la parola successiva in una sequenza, con una precisione raffinata su scala globale, addestrati su miliardi di testi, dialoghi, articoli, manuali, siti. La loro competenza è puramente linguistica, non epistemica.
Non verificano, ma «verosimilizzano».



















































Eppure, ed è questo il nodo, noi spesso li trattiamo come se sapessero. Li interroghiamo come si interroga una fonte. Ci fidiamo del loro stile, della loro compostezza argomentativa. Confondiamo la coerenza del linguaggio con la coerenza del pensiero. Non ci accorgiamo che stiamo delegando non solo l’informazione, ma la struttura stessa del giudizio.
E il fatto che funzioni in molti casi, che «dia risposte giuste», rischia di rinforzare l’equivoco. Perché funziona non vuol dire che comprenda. E se confondiamo una frase ben costruita con un contenuto affidabile, allora il problema è nel nostro sguardo.

Tempo fa avevamo pubblicato un lavoro sull’impoverimento del linguaggio online¹, una lenta ma misurabile tendenza alla semplificazione lessicale, sintattica e semantica nei commenti sui social degli ultimi trent’anni. Un dato che mostrava come le parole cambiano quando cambiano gli ambienti in cui si parla.

Quel lavoro, in modo imprevisto, ha aperto discussioni più ampie. Una in particolare, con alcuni colleghi di una delle principali big tech. La loro domanda era chiara: cosa accadrebbe in una società in cui l’uso degli LLM diventa pervasivo nei compiti quotidiani? Cosa succede alla lingua quando non la produciamo più noi?

Era una domanda importante, ma ne rivelava un’altra, più profonda. Perché in quello scenario non è in gioco solo il linguaggio. È in gioco il modello di mondo immaginato da chi ha costruito questi motori.

Con i colleghi Edoardo Loru, Jacopo Nudo, Niccolò Di Marco e Matteo Cinelli ci siamo chiesti che cosa accade quando la delega cognitiva diventa sistemica. Quando le persone non si affidano agli LLM solo per cercare, ma per comprendere, per valutare, per decidere.

I grandi sviluppatori degli LLM vogliono capirne l’impatto sulla lingua. Ma la vera domanda, per noi, era un’altra: un motore statistico può sostenere questa delega? Quando gli chiediamo di valutare l’affidabilità di una fonte, come opera davvero? Costruisce un criterio, oppure simula una risposta?

Da lì abbiamo deciso di fare un passo in più. Non bastava interrogare i modelli. Non bastava osservarli. Dovevamo metterli alla prova, con dati e confronto reale. Abbiamo così messo fianco a fianco sei dei principali modelli oggi in uso (GPT-4o, Gemini, Mistral, Llama, DeepSeek) e gruppi di valutatori umani, inclusi esperti. A tutti, modelli e persone, è stato affidato lo stesso compito: giudicare la credibilità di centinaia di siti di informazione. In apparenza era semplice: classificare le fonti come affidabili o inaffidabili e motivare la scelta.

Dietro questa apparente semplicità si apriva la questione chiave: cosa conta come prova? Quali segnali usano? Che cosa attivano i modelli per decidere?

I risultati sono stati chiari e sono ora pubblicati in un paper su PNAS che si intitola «The simulation of judgment in LLMs». L’output dei modelli, spesso, è simile a quello degli esperti, almeno in superficie. Ma i processi sono diversi. Radicalmente. Gli LLM si affidano a pattern linguistici, non a ragionamenti. Identificano parole chiave, segnali frequenti, espressioni che co-occorrono con certe etichette. Non leggono il contenuto come un umano, lo mappano. E quando producono una spiegazione, non stanno argomentando: stanno estendendo statisticamente un’istruzione. Il giudizio è simulato. L’epistemologia, assente.

Inoltre, abbiamo esteso l’analisi: ci siamo chiesti come gli LLM operazionalizzano i bias politici.
Non se li possiedono, ma come li manifestano quando devono riconoscerli. Abbiamo costruito un task in cui ai modelli veniva chiesto di leggere un testo, rilevare un eventuale squilibrio ideologico e motivare il giudizio.
La sfida era doppia: individuare il bias e argomentarlo. Anche qui, le risposte sono state linguisticamente corrette, stilisticamente fluide, ma epistemicamente deboli.
Le spiegazioni sembravano più parafrasi eleganti che valutazioni fondate. Non ricostruivano il ragionamento, ma riciclavano frasi del testo con un tono neutro e decoroso. Una prudenza apparente che segnalava un vuoto concettuale.

Ma il dato cruciale è un altro. Dall’esperimento emerge una tendenza sistematica: i modelli considerano più spesso inaffidabili o polarizzati i contenuti associati alla destra politica.
Non perché «credano» qualcosa, ma perché riflettono i pattern dominanti nei dati su cui sono stati addestrati. In ambienti accademici, giornalistici e digitali, certe posizioni sono più frequentemente trattate con toni critici. I modelli apprendono questo schema e lo riproducono, senza comprenderlo.

In assenza di criteri propri, non valutano: replicano.
Si comportano come specchi deformanti, amplificando le frequenze statistiche del loro training set. E quella che sembra una valutazione neutra è, in realtà, un riflesso opaco dell’ambiente che li ha generati
Questa dinamica rende visibile una frattura profonda. Da un lato il pensiero normativo umano, che si fonda, almeno in teoria, su principi, contesto, confronto, intenzionalità. Dall’altro il riflesso statistico appreso da un LLM che, privo di intenzione e consapevolezza, replica correlazioni, non criteri.

Ma non ci siamo fermati lì. Perché l’evoluzione recente dell’intelligenza artificiale non è più centrata solo sulla generazione di testo. È sulla sua agentificazione. I modelli non rispondono più soltanto a un prompt. Cominciano a comportarsi come agenti. Raccolgono informazioni, selezionano fonti, combinano risposte, prendono decisioni su base modulare. È su questo che si gioca oggi la grande scommessa industriale: agenti AI che svolgano compiti autonomi, dalla sintesi legale alla selezione medica, dal customer service all’analisi di policy.

Abbiamo allora deciso di confrontare non solo l’output, ma il comportamento agentico. Perché questi modelli non si limitano più a rispondere: raccolgono dati, selezionano fonti, compongono una scelta. Agiscono. Abbiamo costruito un esperimento in cui sia i modelli sia gli esseri umani operavano come agenti. Stessi strumenti, stesse risorse, stesso task. Una homepage da cui partire, due articoli da consultare, sei criteri di valutazione, un tempo limitato, una richiesta di giudizio. Nessun aiuto, nessuna scorciatoia: solo il processo decisionale. La collaborazione con i colleghi del Dipartimento di Psicologia di Sapienza – Vincenzo Cestari, Clelia Rossi-Arnaud, Alessandro Santirocchi e Roberto Atzeni – è stata essenziale. Hanno portato gli strumenti per osservare non solo cosa veniva deciso, ma come si arrivava alla decisione. Ironia vuole che i nostri uffici siano a duecento metri di distanza, ma non ci conoscevamo. Ci ha messi in contatto un altro collega, Sander van der Linden, professore di Psicologia a Cambridge, con cui collaboro da anni. Per parlarsi a Roma, tocca passare per Londra.

I risultati hanno confermato l’intuizione. Le persone usano criteri retorici, stilistici, emotivi. Valutano il tono, la professionalità, l’equilibrio. I modelli no. I modelli si affidano a tracce strutturali, a segnali lessicali associati alla reputazione o all’ideologia. Quando assegnano una valutazione, non stanno giudicando nel senso umano del termine. Stanno ottimizzando sulla base di correlazioni. Eppure il risultato sembra giudizio. È qui che abbiamo riconosciuto la dinamica che abbiamo chiamato epistemia: l’illusione di sapere che emerge quando la plausibilità linguistica sostituisce la verifica. Un cambio di paradigma, silenzioso ma sistemico.

La cosa più paradossale è che mentre accade tutto questo, nel dibattito pubblico e istituzionale si continua a parlare di «mente estesa», di «potenziamento cognitivo», di «alleanza uomo-macchina». Tutti concetti affascinanti. Ma c’è un problema: si basano su un assunto, non su una verifica. Sono costruzioni ideologiche più che osservazioni empiriche. Sono utili al marketing, ma deraglianti per il pensiero critico. La metafora della mente estesa è un ponte narrativo, non una scoperta. È una retorica potente, lo ammetto, ma è una supercazzola nobile: buona per il gioco della legittimazione, meno per quello della comprensione.

Il marketing gioca un ruolo centrale. Ogni settimana esce un nuovo modello che batte il precedente su qualche benchmark. Le «olimpiadi dell’AI» vengono celebrate come se fossero prove di intelligenza. Ma i benchmark sono progettati per essere vinti, non per essere compresi. Misurano la performance, non il metodo. Raccontano l’eccellenza, ma eludono la vera domanda: cosa stanno facendo davvero questi modelli quando «funzionano»? E soprattutto: cosa stiamo delegando, ogni volta che li usiamo? A noi, invece, interessa questo. Non lo spettacolo della prestazione, ma la struttura della delega. Non l’eccellenza nella forma, ma la trasformazione della funzione.
Se vogliamo capire cosa significa davvero questa transizione, dobbiamo guardarla senza illusioni. Questi modelli non sono nemici. Ma non sono nemmeno partner neutrali. Sono sistemi potentissimi, capaci di produrre apparenze del pensiero. Restano, per ora, macchine di plausibilità. E se la società si abitua a scambiare la plausibilità per verità, allora il problema non sarà l’intelligenza artificiale. Saremo noi.

Non è un pericolo imminente. Non è un’allerta etica. È un cambio di cornice, che va riconosciuto prima che si stabilizzi. Perché ciò che cambia non è solo il modo in cui cerchiamo informazioni. È il modo in cui riconosciamo la conoscenza. Se continuiamo a trattare questi strumenti come giudici, e non come generatori, allora rischiamo di perdere il controllo sul concetto stesso di affidabilità, autorità, prova. Il futuro sarà pieno di strumenti che sembrano pensare. Ma sembrare non è essere. Non serve allarmismo. Serve vigilanza. Perché la forma del sapere non è il sapere stesso.

Perché alla fine, non stiamo automatizzando il pensiero. Stiamo automatizzando la sua apparenza.

¹Di Marco, Nicola, Edoardo Loru, Anita Bonetti, Alessandra Olga Grazia Serra, Matteo Cinelli, and Walter Quattrociocchi. “Patterns of linguistic simplification on social media platforms over time.” Proceedings of the National Academy of Sciences121, no. 50 (2024): e2412105121.

*Walter Quattrociocchi è professore Ordinario di Informatica all’università Sapienza di Roma

Per non perdere le ultime novità su tecnologia e innovazione
iscriviti alla newsletter di Login

13 ottobre 2025 ( modifica il 13 ottobre 2025 | 21:36)