Nowy tryb Images w ChatGPT robi ogromne wrażenie. Obrazy wreszcie "słuchają" poleceń

Aktualizacja została ogłoszona w drugiej połowie grudnia i jest już wdrożona w ChatGPT dla wszystkich użytkowników. Równolegle trafiła też do API jako model gpt-image-1.5 dla specjalistów i firm chcących korzystać z tej technologii w swoich usługach i produktach.

OpenAI zaznacza, że nowy, dedykowany obszar Images w pasku bocznym (czyli odświeżone doświadczenie do eksplorowania stylów i inspiracji) pojawia się od razu u większości osób, natomiast dostęp dla planów Business i Enterprise ma zostać dodany później.

Dalsza część pod materiałem wideo:

Zobacz też: Nowa era obrazów z AI. Google Nano Banana Pro podbija internet

Czytaj także w BUSINESS INSIDER

Edycja zdjęć lepsza niż kiedykolwiek

Największa zmiana dotyczy edycji obrazów. Gdy wgramy zdjęcie i poprosimy o modyfikację, model ma zmieniać tylko to, co chcemy, jednocześnie utrzymując spójność oświetlenia, kompozycji i wyglądu osób pomiędzy kolejnymi wersjami.

To ważne, bo w poprzednich generacjach łatwo można było zgubić tożsamość postaci albo przypadkiem przestawić ważne elementy kadru.

Prompt: Ludzie patrzą na tym zdjęciu na tablicę z ofertami pracy. Zmień te oferty pracy na kolorowe papierki po cukierkach

|
Mat. własne / OpenAI

Efekt po edycji

|
Mat. własne / OpenAI

OpenAI mocno podkreśla też, że GPT-Image-1.5 lepiej radzi sobie z bardziej złożonymi poleceniami i relacjami między elementami na obrazie, a do tego robi krok naprzód w renderowaniu tekstu — również drobnego i gęstego, co do tej pory było piętą achillesową generatorów.

W pakiecie dostajemy usprawnienia jakościowe, takie jak naturalny wygląd rezultatów i lepszą obsługę scen z wieloma małymi twarzami, np. tłumem na ulicy.

Czytaj też: Granica między AI a ludźmi się zaciera. Zaczynamy mówić jak chatboty

Nowy tryb to nie tylko model, ale i interfejs. W ChatGPT pojawia się osobna przestrzeń „Images” w pasku bocznym — coś w rodzaju kreatywnego hubu z gotowymi stylami, filtrami i podpowiedziami promptów aktualizowanymi pod bieżące trendy. Ciekawostką jest opcja jednorazowego „wgrania podobieństwa”, dzięki której można później wracać do własnego wizerunku w kolejnych kreacjach bez ponownego szukania zdjęcia w galerii.

Z perspektywy firm i zespołów kreatywnych najważniejsze jest to, że nacisk przesuwa się na przewidywalną pracę, tj. szybsze generowanie, dokładniejsze poprawki i większą spójność w kolejnych iteracjach. OpenAI wprost wskazuje na takie zastosowania jak marketing, e-commerce, projektowanie i komunikację wewnętrzną. To obszary, gdzie AI przyspiesza proces od pomysłu do materiału gotowego do użycia.

Prompt: Osoba na tym zdjęciu trzyma japońskiego grzyba matsutake. Zmień go na nowoczesnego smartfona

|
Mat. własne / OpenAI

Efekt po edycji (wyraźny błąd — 6 palców)

|
Mat. własne / OpenAI

W API GPT-Image-1.5 ma być też bardziej brand safe (ochrona marki) w praktyce, bo AI lepiej utrzymuje logo i najważniejsze elementy identyfikacji wizualnej podczas edycji. Firma dorzuca argument budżetowy — wejście i wyjście obrazu ma być o ok. 20 proc. tańsze niż w GPT Image 1, a model można testować m.in. w Playground.

Sprawdź też: ChatGPT to cyfrowy powiernik użytkowników

To jeszcze nie ideał

OpenAI nie udaje, że to ideał. W oficjalnym opisie pojawia się zastrzeżenie, że mimo widocznych postępów rezultaty wciąż bywają niedoskonałe, a część ograniczeń (np. w bardziej wymagających stylach, scenach z wieloma twarzami czy w zastosowaniach wielojęzycznych) nadal wymaga dopracowania.

Prompt: Na zdjęciu widać kryty basen przy jasnym świetle. Zmień scenerię tego zdjęcia na dramatyczną, ponurą, a basen powinien być zamrożony

|
OpenAI

Efekt po edycji

|
OpenAI

Premiera nowego generatora obrazów ChatGPT ma też wyraźny kontekst rynkowy. Media opisują ją jako odpowiedź na ostatnią falę zachwytów wokół konkurencyjnych modeli obrazowych, zwłaszcza Google’a, które przyciągnęły uwagę realizmem i funkcjami. To sygnał, że bitwa o generowanie obrazów wchodzi w etap, w którym liczy się nie tylko jakość, ale też szybkość, powtarzalność i użyteczność w codziennej pracy.

Autor: Grzegorz Kubera, dziennikarz Business Insider Polska

Nowy tryb Images w ChatGPT robi ogromne wrażenie. Obrazy wreszcie „słuchają” poleceń

Tags: