Da anni il settore privato investe cifre enormi nell’intelligenza
artificiale con l’aspettativa di progressi rapidi e dirompenti, ma una
parte crescente della comunità scientifica invita alla cautela, mettendo
in discussione l’effettivo ritmo di miglioramento dei modelli di ultima
generazione. In questa cornice, il giudizio di Gary Marcus,
neuroscienziato e tra i più noti critici dell’impostazione
“scaling-first”, è netto: il lancio di GPT-5 ha rappresentato un
passo avanti incrementale, percepito come “in ritardo,
sovra-pubblicizzato e deludente” rispetto alle aspettative gonfiate
dell’industria.

GPT-5: Overdue, overhyped and underwhelming. And that’s not
the worst of it. by Gary Marcus

A new release botched … and new research paper that spells trouble

Read
on Substack

Il punto controverso non è tanto l’assenza di miglioramenti tecnici,
comunque rivendicati con i risultati dei benchmark, quanto l’utilità reale
per gli utenti e l’assenza di un salto di qualità tangibile
nell’esperienza d’uso rispetto ai modelli precedenti, che continuano a
eccellere soprattutto come “compagni di chat” ma mostrano limiti
persistenti in ragionamento, affidabilità e accuratezza.
La critica si estende alla validità e all’interpretazione dei benchmark
stessi, la cui attendibilità viene messa in dubbio da ricercatori
e osservatori indipendenti quando non si traduce in benefici concreti e
riproducibili in scenari non addestrati.

Secondo questa linea di lettura, si starebbe esaurendo quella paventata
scalabilità dell’approccio dominante negli Stati Uniti e in aziende come
OpenAI e Anthropic, basato sull’aumento massivo di GPU, data
center
, energia e capitale con l’aspettativa di miglioramenti quasi
esponenziali verso l’AGI. AGI che come sappiamo è quasi un’ossessione per
Sam Altman e abbracciata dai mercati, ma che oggi incontra confutazioni
crescenti sul piano empirico. Per Marcus e altri studiosi, questo
paradigma privilegia la crescita finanziaria e l’hype rispetto a progressi
davvero sostanziali, e il suggerimento di spostare il baricentro verso
approcci più mirati e integrati.

Una posizione che fino a poco tempo fa appariva minoritaria oggi trova
nuovi sostenitori accademici e industriali. Michael Rovatsos,
professore di IA all’Università di Edimburgo, ha
evidenziato
come l’introduzione in GPT-5 di un “router” per
instradare le domande verso componenti più adatti indichi un ripensamento
strutturale: invece di puntare su modelli sempre più opachi e monolitici,
si torna a principi di meta-ragionamento e composizione di capacità
specializzate, un segnale che potrebbe marcare un punto di svolta e il
riconoscimento implicito di un limite nel rendere i soli LLM “molto più
intelligenti”. In quest’ottica, alcuni risultati pratici, come possono
essere quei casi eclatanti di errori in compiti apparentemente semplici,
nonostante il miglioramento su test standardizzati, suffragano
ulteriormente l’ipotesi del raggiungimento di un cosiddetto plateau
funzionale e di una necessità di nuovi ingredienti architetturali.

Le perplessità non arrivano solo dal mondo accademico: già nel 2023 Bill
Gates
aveva parlato di una sorta di stallo della “AI scalabile”, una
tesi che oggi risuona maggiormente alla luce di lanci percepiti come meno
rivoluzionari del previsto e di una crescente prudenza degli investitori
di fronte a promesse ambiziose sul raggiungimento dell’AGI. Il quadro
macro-finanziario rende queste dinamiche ancora più sensibili: secondo una
serie di analisi riportate recentemente dal Wall Street Journal, la
fortissima espansione di spese per capitali legata all’IA ha
contribuito in modo rilevante alla crescita recente dell’economia
statunitense e in misura maggiore rispetto alla spesa complessiva dei
consumatori, tra l’altro in una realtà odierna dove i grandi attori
dell’infrastruttura cloud e dei semiconduttori coincidono con le aziende a
più alta capitalizzazione dei listini. Di seguito i primi 8 titoli
dell’indice S&P500:

  • Nvidia (NVDA)
  • Microsoft (MSFT)
  • Apple (AAPL)
  • Amazon (AMZN)
  • Meta Platforms (META)
  • Broadcom (AVGO)
  • Alphabet Class A (GOOGL)
  • Alphabet Class C (GOOG)

Proprio per questo, gli scostamenti tra aspettative e risultati operativi
vengono osservati con attenzione. Ci sarebbe un primo campanello
d’allarme, quello di CoreWeave, partner infrastrutturale chiave
per OpenAI: nonostante ricavi in forte aumento, il titolo ha subito un
calo significativo a seguito della pubblicazione dei primi risultati
trimestrali come società quotata in borsa a maggio, dopo che la società
aveva fornito previsioni inferiori sull’utile operativo rispetto a quanto
previsto da Wall Street. Previsioni che hanno iniziato ad alimentare
qualche dubbio sulla sostenibilità del modello in un contesto di debito
elevato e costi crescenti. E anche ieri, con la presentazione della nuova
trimestrale, la
società ha registrato un crollo fino al 20%
dopo aver riportato
perdite superiori alle aspettative di Wall Street. Questa dinamica è
sintomo della sensibilità degli investitori a eventuali dati finanziari
deludenti che possano suggerire un riallineamento delle aspettative
iniziale.

E quindi il punto nodale riguarda la catena di trasmissione del valore:
se i grandi clienti non riusciranno a monetizzare su larga scala
le applicazioni di IA, specie in un mercato in cui molti utenti finali
gravitano su offerte freemium, il rischio è che l’intero sistema, dai chip
ai data center fino ai layer applicativi, debba ricalibrare
ambizioni e ritorni attesi, con impatti potenzialmente più ampi di quelli
visti nella bolla dot-com per via della profondità raggiunta dagli
investimenti infrastrutturali e dall’integrazione nelle dinamiche
macroeconomiche. In questo scenario, il dibattito si sposta dalla corsa ai
record nei benchmark alla verifica di valore d’uso, sostenibilità
dei costi
(compresi quelli energetici) e all’urgenza di un’agenda di
ricerca capace di superare i limiti strutturali degli attuali LLM.