Április közepén az OpenAI bemutatta legújabb képgeneráló modelljét, amely a vállalat állítása szerint minden eddiginél intelligensebb, pontosabb és részletgazdagabb alkotásokra képes. A keddi élő bejelentést megelőző promóciós videóban a ChatGPT Images 2.0-t egyenesen a mesterséges intelligencia által vezérelt képalkotás „reneszánszának” nevezték. A cég hasonlata szerint, míg a DALL-E volt a barlangrajz, az Images 1.0 pedig az ókori művészet, addig az Images 2.0 a valódi újjászületést hozza el, azaz a reneszánszt. Sam Altman vezérigazgató a bemutatón szintén jelentős mérföldkőként hivatkozott az újításra, a lépést ahhoz hasonlítva, mintha a technológia a GPT-3-ról egyből a GPT-5-re ugrott volna.
Okosabb, ügyesebb, de veszélyesebb
Bár a modell lenyűgöző többnyelvű képességekkel és páratlan vizuális intelligenciával rendelkezik – a demóban például egy rizstálat generáltak, amelyben egyetlen apró rizsszemen tökéletesen olvashatóan szerepelt a modell neve –, a fejlesztés igazi fókuszában ezúttal is a fotórealizmus áll. Gabriel Goh, az OpenAI kutatója a bemutatón ki is emelte, hogy ez az a stílus, ami a leginkább lázba hozza a szakmát. A fotórealizmus azonban komoly kockázatokat rejt, hiszen az ehhez hasonló új generációs képgenerátorokkal már most tömegeket vernek át a közösségi oldalakon. Intő példa erre az a napokban futótűzként terjedő kép, amely látszólag a Xiaomi egyik hivatalos sajtóeseményén készült. A fotón egy olyan prezentáció részlete látható, amely szerint a kínai techóriás 2027-től teljesen elhagyja a saját fejlesztésű HyperOS rendszerét, és átáll a letisztult, módosítatlan Androidra.
Ebből természetesen egyetlen szó sem igaz, de a kép olyan meggyőzőre és valósághűre sikerült, hogy a gyanútlan felhasználók tömegei vették készpénznek a pletykát.
A korábbi generációk hibáinak kiküszöbölése érdekében a modellt egyébként kétféle üzemmóddal vértezték fel. Az azonnali (Instant) mód a hagyományos képgenerátorok gyorsabb, felújított változataként működik, és már most elérhető minden ChatGPT- és API-felhasználó számára. Ezzel szemben a gondolkodó (Thinking) mód egy jóval komplexebb funkció, amely kizárólag a fizetős – Plus, Pro és Business – előfizetők számára nyitott. Ebben a módban az Images 2.0 képes valós idejű információkért böngészni a weben, egyetlen prompt alapján több, egymástól eltérő képet készíteni, és ami a legfontosabb: képes leellenőrizni a saját munkáját. Az OpenAI szerint a rendszerből akár többoldalas mangaképregények is kinyerhetők visszatérő karakterekkel és logikusan fejlődő történetvezetéssel, míg az elgépelések és a hibás feliratok előfordulása szinte teljesen megszűnt.
Az új modell bejelentésének időzítése persze nem véletlen, az szorosan összefügg az OpenAI üzleti céljaival. Mint ismeretes, a vállalat gőzerővel készül a várhatóan még idén esedékes tőzsdére lépésére. Mivel azonban cég a növekvő kiadások miatt még mindig messze van a profitabilitástól – részben emiatt kaszálták el nemrég a Sora nevű videógenerátorukat is –, mindent megtesznek, hogy technológiai fölényük demonstrálásával vonzóvá váljanak a befektetők szemében.
A februári adatok szerint a ChatGPT heti aktív felhasználóinak száma átlépte a 900 milliót, a vezetőség pedig abban bízik, hogy az Images 2.0 fotórealizmusa és viralitása majd segít áttörni a lélektani, egyben üzletileg sokkal jobban hangzó egymilliárdos határt. Erre a növekedésre pedig szükségük is van, hiszen a nyakukon liheg a konkurencia: a Google a Nano Banana Pro és a Gemini 3 modelljeivel komoly fejtörést okozott az OpenAI-nak, míg az Anthropic a Claude Cowork és Claude Code ágensekkel szorongatja Sam Altmanékat.
Egy lépéssel közelebb a „szuperalkalmazáshoz”
Hogy bebizonyítsák, továbbra is ők diktálják a tempót, az OpenAI csütörtökön egy újabb nagyágyút is bemutatott: a GPT-5.5-ös modellt, aminek érkezését korábban már az Indexen is megjósoltuk. A vállalat állítása szerint ez a valaha készült legokosabb és legintuitívabban használható algoritmusuk. Greg Brockman, az OpenAI társalapítója és elnöke úgy nyilatkozott, a GPT-5.5 hatalmas ugrást jelent az autonómabb, ágensekre épülő számítástechnika felé, mivel az új modell sokkal élesebben és gyorsabban gondolkodik, ráadásul kevesebb token felhasználásával teszi mindezt.
A frissítés egyúttal egy újabb építőkockát jelent az OpenAI nagy álmához, egy „szuperalkalmazás” létrehozásához. A vízió egy olyan digitális svájci bicskát vetít előre, amely egyetlen, egységes szolgáltatásban egyesíti a ChatGPT-t, a kódolást segítő Codexet és a mesterséges intelligenciával támogatott böngészést. Az új modell kiemelkedően teljesít a komplex kódolási feladatokban, a tudásalapú munkákban, a matematikában és a tudományos kutatásokban egyaránt. Az OpenAI által közzétett benchmark adatok alapján a GPT-5.5 következetesen magasabb pontszámokat ér el, mint a legnagyobb riválisok, köztük a Google Gemini 3.1 Pro vagy az Anthropic Claude Opus 4.5.
A vállalat az elmúlt hónapokban szinte futószalagon szállította az újításokat, bennfentesek szerint ez a tempó pedig a jövőben is megmarad. Az OpenAI tehát egyértelmű üzenetet küldött a piacnak, sem a képgenerálás, sem a szöveges modellek terén nem hajlandók átengedni a vezető szerepet. Kérdés, hogy az egyre élethűbb és intelligensebb modellek megjelenésével sikerül-e profitot termelniük, vagy hamarosan átesnek a ló túloldalára. Na meg, hogy a tavaly februárban életbe lépő EU-s AI Act hogyan sújt majd le a mesterséges intelligenciával generált megtévesztő tartalmakra.
(Borítókép: Smith Collection/Gado/Getty Images)

Mi lenne, ha a jövő nem csak történne veled, hanem te alakítanád? Ez a könyv segít felkészülni, sosem tapasztalt módon. Tedd meg az első lépést most.

Kövesse az Indexet Facebookon is!
Követem!