{"id":221688,"date":"2025-11-19T01:09:13","date_gmt":"2025-11-19T01:09:13","guid":{"rendered":"https:\/\/www.europesays.com\/it\/221688\/"},"modified":"2025-11-19T01:09:13","modified_gmt":"2025-11-19T01:09:13","slug":"e-arrivato-gemini-3-pro-il-piu-potente-modello-ia-di-google-corteggia-anche-le-soluzioni-agentiche","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/it\/221688\/","title":{"rendered":"\u00c8 arrivato Gemini 3 Pro, il pi\u00f9 potente modello IA di Google corteggia anche le soluzioni agentiche"},"content":{"rendered":"<p>Era marzo quando Google lanciava Gemini 2.5 Pro. Da allora \u00e8 rimasta silente sull\u2019offerta di fascia alta dei suoi modelli IA mulitmodali, ma <b>oggi \u00e8 il giorno della famiglia Gemini 3, arrivata con Gemini 3 Pro e Gemini 3 Deep Think.<\/b><\/p>\n<p>&#13;<\/p>\n<p>Gemini 3 \u00e8 un aggiornamento che segna una transizione netta nella strategia di Google perch\u00e9 \u00e8 <b>il p\ufeffassaggio da un modello di chatbot conversazionale a uno di tipo &#8220;agentico&#8221;. <\/b><\/p>\n<p>&#13;<\/p>\n<p>Se le iterazioni precedenti si concentravano sulla generazione di testo e immagini, questa nuova generazione punta tutto sulla capacit\u00e0 di ragionamento e <b>sull&#8217;esecuzione autonoma di compiti complessi<\/b>. <\/p>\n<p>Al di l\u00e0 delle dichiarazioni d&#8217;intenti, per ora sono i numeri dei benchmark tecnici a delineare il salto prestazionale di Gemini 3 Pro, posizionandolo come nuovo punto di riferimento per i &#8220;modelli di frontiera&#8221;.<\/p>\n<p>&#13;<\/p>\n<p>Il \u00a0dato che cattura immediatamente l&#8217;attenzione dei non addetti ai lavori \u00e8 il punteggio sulla <b>LMArena Leaderboard, dove il modello ha raggiunto un Elo di 1501<\/b> (immaginiamo in pre-release testing), staccando la concorrenza e stabilendo un nuovo primato assoluto. Grok 4.1 uscito ieri segna un valore attuale in modalit\u00e0 Thinking di 1483. Ma \u00e8 scendendo nel dettaglio dei test specifici che si comprende la natura del miglioramento.<\/p>\n<p>&#13;<\/p>\n<p>Nel benchmark GPQA Diamond, che valuta la capacit\u00e0 di rispondere a quesiti scientifici di livello esperto (PhD-level), <b>Gemini 3 Pro ha toccato il 91,9% di accuratezza<\/b>. <\/p>\n<p>Ancor pi\u00f9 significativo \u00e8 il risultato su &#8220;<b>Humanity&#8217;s Last Exam<\/b>&#8220;, un test progettato per essere particolarmente ostico per le IA attuali. <b>Qui il modello ha ottenuto un 37,5%<\/b> senza l&#8217;ausilio di strumenti esterni (tool use), dimostrando una capacit\u00e0 di astrazione e logica pura notevolmente superiore alla generazione precedente. <b>GPT-5 Pro si ferma a 31,64%<\/b>. Anche in ambito matematico si registra un nuovo stato dell&#8217;arte, con un punteggio del 23,4% su MathArena Apex.<\/p>\n<p class=\"image-label\"><a href=\"https:\/\/cdn.dday.it\/system\/uploads\/picture\/image\/121840\/c5dcb0_gemini_3_table_final_HLE_Tools_on.gif\" class=\"image-badge original-image\" target=\"_blank\" rel=\"nofollow noopener\">Apri originale<\/a><\/p>\n<p><img decoding=\"async\" src=\"https:\/\/www.europesays.com\/it\/wp-content\/uploads\/2025\/11\/c5dcb0_gemini_3_table_final_HLE_Tools_on.gif\" data-image=\"picture-0\"  \/>&#13;<\/p>\n<p>La robustezza del modello non si limita al ragionamento astratto, ma si estende alla verifica fattuale. Su SimpleQA Verified, un banco di prova fondamentale per misurare l&#8217;affidabilit\u00e0 delle informazioni e la resistenza alle &#8220;allucinazioni&#8221;, Gemini 3 Pro ha raggiunto il 72,1%.<\/p>\n<p>&#13;<br \/>\nCoding e Agenti: i dati sul campo&#13;<\/p>\n<p><b>Gemini 3 Pro gonfia i muscoli anche nel coding<\/b>, superando nettamente il suo predecessore, Gemini 2.5 Pro. <\/p>\n<p>&#13;<\/p>\n<p>Nel benchmark SWE-bench Verified, che richiede la risoluzione di problemi reali tratti da GitHub, il modello ha raggiunto il 76,2%. Il modello domina la classifica di WebDev Arena con un punteggio Elo di 1487 (superando Claude Opus 4.1 germo a 1404) e dimostra di saper &#8220;usare il computer&#8221; ottenendo il 54,2% su Terminal-Bench 2.0, un test che valuta l&#8217;abilit\u00e0 di operare tramite riga di comando.<\/p>\n<p>&#13;<\/p>\n<p>L&#8217;autonomia si misura anche sulla capacit\u00e0 di pianificazione a lungo termine. Su Vending-Bench 2, che simula la gestione di un&#8217;attivit\u00e0 commerciale nel tempo, Gemini 3 Pro si \u00e8 posizionato al vertice, mantenendo la coerenza decisionale per un intero &#8220;anno&#8221; simulato senza perdere il filo delle operazioni. <\/p>\n<p>&#13;<\/p>\n<p>I partner commerciali confermano queste metriche con dati sul campo: GitHub ha riportato un aumento del 35% nell&#8217;accuratezza della risoluzione dei problemi rispetto a Gemini 2.5 Pro, mentre JetBrains ha osservato un miglioramento superiore al 50% nel completamento dei task di benchmark.<\/p>\n<p>&#13;<br \/>\nOltre il Pro, (non) arriva &#8220;Deep Think&#8221;&#13;<\/p>\n<p><b>Google ha inoltre svelato una modalit\u00e0 di ragionamento potenziata, denominata &#8220;Gemini 3 Deep Think&#8221;<\/b>. Attualmente in fase di valutazione di sicurezza, questa variante spinge ulteriormente i limiti del ragionamento lento e ponderato. <\/p>\n<p class=\"image-label\"><a href=\"https:\/\/cdn.dday.it\/system\/uploads\/picture\/image\/121841\/bf41bb_final_dt_blog_evals_2.gif\" class=\"image-badge original-image\" target=\"_blank\" rel=\"nofollow noopener\">Apri originale<\/a><\/p>\n<p><img decoding=\"async\" src=\"https:\/\/www.europesays.com\/it\/wp-content\/uploads\/2025\/11\/bf41bb_final_dt_blog_evals_2.gif\" data-fnumber=\"null\" data-isospeed=\"null\" data-exposure_time=\"null\"  \/>&#13;<\/p>\n<p>I test preliminari mostrano un punteggio del 41,0% su Humanity&#8217;s Last Exam e <b>un impressionante 93,8% su GPQA Diamond<\/b>. Ancora pi\u00f9 rilevante \u00e8 il 45,1% ottenuto su ARC-AGI-2 con esecuzione di codice.<\/p>\n<p>&#13;<br \/>\nScende in campo la Generative UI&#13;<\/p>\n<p>Sul fronte multimodale, Gemini 3 Pro ridefinisce i propri standard per l&#8217;analisi di immagini e video complessi, ottenendo l&#8217;81% su MMMU-Pro e l&#8217;87,6% su Video-MMMU. <\/p>\n<p>&#13;<\/p>\n<p>Queste capacit\u00e0 alimentano la nuova &#8220;Generative UI&#8221;. Si tratta di un paradigma in cui il modello<b> non si limita a fornire risposte testuali, ma genera interfacce grafiche interattive su misura <\/b>(renderizzate in tempo reale tramite codice HTML\/CSS) per rispondere alle richieste dell&#8217;utente, come pianificatori di viaggio o comparatori finanziari. \u00c8 qualcosa che abbiamo gi\u00e0 visto nelle proposte di OpenAI e Opera, per esempio.<\/p>\n<p>Come provare Gemini 3 Pro&#13;<\/p>\n<p>L\u2019accesso a Gemini 3 Pro varia a seconda della tipologia di utenza. <b>Google ha iniziato il rollout del modello per tutti nell\u2019app Gemini<\/b>, dove \u00e8 disponibile da oggi, e per gli abbonati Google AI Pro e Ultra in AI Mode nella Ricerca. <\/p>\n<p><b>Per gli sviluppatori Gemini 3 \u00e8 esposto tramite la Gemini API in Google AI Studio, in Vertex A<\/b>I, nella nuova piattaforma di sviluppo agentico <a href=\"https:\/\/antigravity.google\/\" target=\"_blank\" rel=\"nofollow noopener\">Google Antigravity<\/a>\u00a0<b>disponibile per Windows, macOS e Linux<\/b>, e nella Gemini CLI. \u00c8 gi\u00e0 integrato anche in diversi ambienti di sviluppo di terze parti, tra cui Cursor, GitHub, JetBrains, Manus e Replit.&#13;<br \/>\n&#13;\n<\/p>\n<p><b>Sul fronte enterprise Gemini 3 \u00e8 disponibile in Vertex AI e in Gemini Enterprise <\/b>e porta nei flussi di lavoro aziendali le nuove capacit\u00e0 di ragionamento multimodale e la finestra di contesto fino a 1 milione di token. <\/p>\n<p>Come detto, la modalit\u00e0 Gemini 3 Deep Think, dedicata al ragionamento pi\u00f9 lento e approfondito, \u00e8 in fase di valutazione di sicurezza e verr\u00e0 resa disponibile nelle prossime settimane agli abbonati Google AI Ultra.<\/p>\n","protected":false},"excerpt":{"rendered":"Era marzo quando Google lanciava Gemini 2.5 Pro. Da allora \u00e8 rimasta silente sull\u2019offerta di fascia alta dei&hellip;\n","protected":false},"author":3,"featured_media":221689,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[173],"tags":[1537,90,89,195,198,199,197,200,201,194,196],"class_list":{"0":"post-221688","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-scienza-e-tecnologia","8":"tag-it","9":"tag-italia","10":"tag-italy","11":"tag-science","12":"tag-science-and-technology","13":"tag-scienceandtechnology","14":"tag-scienza","15":"tag-scienza-e-tecnologia","16":"tag-scienzaetecnologia","17":"tag-technology","18":"tag-tecnologia"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@it\/115573697281003751","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts\/221688","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/comments?post=221688"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/posts\/221688\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/media\/221689"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/media?parent=221688"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/categories?post=221688"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/it\/wp-json\/wp\/v2\/tags?post=221688"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}