Era marzo quando Google lanciava Gemini 2.5 Pro. Da allora è rimasta silente sull’offerta di fascia alta dei suoi modelli IA mulitmodali, ma oggi è il giorno della famiglia Gemini 3, arrivata con Gemini 3 Pro e Gemini 3 Deep Think.
Gemini 3 è un aggiornamento che segna una transizione netta nella strategia di Google perché è il passaggio da un modello di chatbot conversazionale a uno di tipo “agentico”.
Se le iterazioni precedenti si concentravano sulla generazione di testo e immagini, questa nuova generazione punta tutto sulla capacità di ragionamento e sull’esecuzione autonoma di compiti complessi.
Al di là delle dichiarazioni d’intenti, per ora sono i numeri dei benchmark tecnici a delineare il salto prestazionale di Gemini 3 Pro, posizionandolo come nuovo punto di riferimento per i “modelli di frontiera”.
Il dato che cattura immediatamente l’attenzione dei non addetti ai lavori è il punteggio sulla LMArena Leaderboard, dove il modello ha raggiunto un Elo di 1501 (immaginiamo in pre-release testing), staccando la concorrenza e stabilendo un nuovo primato assoluto. Grok 4.1 uscito ieri segna un valore attuale in modalità Thinking di 1483. Ma è scendendo nel dettaglio dei test specifici che si comprende la natura del miglioramento.
Nel benchmark GPQA Diamond, che valuta la capacità di rispondere a quesiti scientifici di livello esperto (PhD-level), Gemini 3 Pro ha toccato il 91,9% di accuratezza.
Ancor più significativo è il risultato su “Humanity’s Last Exam“, un test progettato per essere particolarmente ostico per le IA attuali. Qui il modello ha ottenuto un 37,5% senza l’ausilio di strumenti esterni (tool use), dimostrando una capacità di astrazione e logica pura notevolmente superiore alla generazione precedente. GPT-5 Pro si ferma a 31,64%. Anche in ambito matematico si registra un nuovo stato dell’arte, con un punteggio del 23,4% su MathArena Apex.
La robustezza del modello non si limita al ragionamento astratto, ma si estende alla verifica fattuale. Su SimpleQA Verified, un banco di prova fondamentale per misurare l’affidabilità delle informazioni e la resistenza alle “allucinazioni”, Gemini 3 Pro ha raggiunto il 72,1%.
Coding e Agenti: i dati sul campo
Gemini 3 Pro gonfia i muscoli anche nel coding, superando nettamente il suo predecessore, Gemini 2.5 Pro.
Nel benchmark SWE-bench Verified, che richiede la risoluzione di problemi reali tratti da GitHub, il modello ha raggiunto il 76,2%. Il modello domina la classifica di WebDev Arena con un punteggio Elo di 1487 (superando Claude Opus 4.1 germo a 1404) e dimostra di saper “usare il computer” ottenendo il 54,2% su Terminal-Bench 2.0, un test che valuta l’abilità di operare tramite riga di comando.
L’autonomia si misura anche sulla capacità di pianificazione a lungo termine. Su Vending-Bench 2, che simula la gestione di un’attività commerciale nel tempo, Gemini 3 Pro si è posizionato al vertice, mantenendo la coerenza decisionale per un intero “anno” simulato senza perdere il filo delle operazioni.
I partner commerciali confermano queste metriche con dati sul campo: GitHub ha riportato un aumento del 35% nell’accuratezza della risoluzione dei problemi rispetto a Gemini 2.5 Pro, mentre JetBrains ha osservato un miglioramento superiore al 50% nel completamento dei task di benchmark.
Oltre il Pro, (non) arriva “Deep Think”
Google ha inoltre svelato una modalità di ragionamento potenziata, denominata “Gemini 3 Deep Think”. Attualmente in fase di valutazione di sicurezza, questa variante spinge ulteriormente i limiti del ragionamento lento e ponderato.
I test preliminari mostrano un punteggio del 41,0% su Humanity’s Last Exam e un impressionante 93,8% su GPQA Diamond. Ancora più rilevante è il 45,1% ottenuto su ARC-AGI-2 con esecuzione di codice.
Scende in campo la Generative UI
Sul fronte multimodale, Gemini 3 Pro ridefinisce i propri standard per l’analisi di immagini e video complessi, ottenendo l’81% su MMMU-Pro e l’87,6% su Video-MMMU.
Queste capacità alimentano la nuova “Generative UI”. Si tratta di un paradigma in cui il modello non si limita a fornire risposte testuali, ma genera interfacce grafiche interattive su misura (renderizzate in tempo reale tramite codice HTML/CSS) per rispondere alle richieste dell’utente, come pianificatori di viaggio o comparatori finanziari. È qualcosa che abbiamo già visto nelle proposte di OpenAI e Opera, per esempio.
Come provare Gemini 3 Pro
L’accesso a Gemini 3 Pro varia a seconda della tipologia di utenza. Google ha iniziato il rollout del modello per tutti nell’app Gemini, dove è disponibile da oggi, e per gli abbonati Google AI Pro e Ultra in AI Mode nella Ricerca.
Per gli sviluppatori Gemini 3 è esposto tramite la Gemini API in Google AI Studio, in Vertex AI, nella nuova piattaforma di sviluppo agentico Google Antigravity disponibile per Windows, macOS e Linux, e nella Gemini CLI. È già integrato anche in diversi ambienti di sviluppo di terze parti, tra cui Cursor, GitHub, JetBrains, Manus e Replit.
Sul fronte enterprise Gemini 3 è disponibile in Vertex AI e in Gemini Enterprise e porta nei flussi di lavoro aziendali le nuove capacità di ragionamento multimodale e la finestra di contesto fino a 1 milione di token.
Come detto, la modalità Gemini 3 Deep Think, dedicata al ragionamento più lento e approfondito, è in fase di valutazione di sicurezza e verrà resa disponibile nelle prossime settimane agli abbonati Google AI Ultra.