Alibaba prezentuje model AI Qwen-Image-Layered do dekompozycji obrazów na warstwy RGBA z pełną edytowalnościąEdycja obrazów przy pomocy sztucznej inteligencji od lat boryka się z tym samym dylematem: jak modyfikować wybrane elementy bez niszczenia spójności całego kadru? Zespół Qwen z Alibaba Cloud właśnie zaprezentował rozwiązanie, które może całkowicie zmienić reguły gry. Model Qwen-Image-Layered automatycznie rozkłada płaskie obrazy rastrowe na niezależne warstwy RGBA – dokładnie tak, jak robią to profesjonaliści w Photoshopie, tyle że bez żmudnej ręcznej selekcji.

Model Qwen-Image-Layered wprowadza koncepcję fizycznej izolacji elementów obrazu poprzez automatyczną dekompozycję na semantycznie niezależne warstwy RGBA, eliminując fundamentalne ograniczenia tradycyjnych metod maskowania.

Alibaba prezentuje model AI Qwen-Image-Layered do dekompozycji obrazów na warstwy RGBA z pełną edytowalnością [1]

Świąteczny easter egg w ChatGPT. Model Sora generuje spersonalizowane wideo z Mikołajem na podstawie jednego emoji

Model Qwen-Image-Layered stara się rozwiązać dwa fundamentalne problemy współczesnej edycji AI. Pierwszym jest globalne zakłócanie spójności, gdy modyfikujesz fragment obrazu, algorytm często zmienia także obszary, których dotykać nie powinien. Drugim jest niedoskonałość metod maskowania, które przy okluzjach i rozmytych granicach regularnie produkują artefakty. Rozwiązanie Alibaby polega na całkowitej zmianie podejścia. Zamiast nakładać maski na płaski obraz, model dekomponuje go na warstwy metodą „obierania cebuli”, gdzie każda warstwa zawiera kolor RGB oraz informację o przezroczystości (kanał Alpha).

Alibaba prezentuje model AI Qwen-Image-Layered do dekompozycji obrazów na warstwy RGBA z pełną edytowalnością [2]

Sam Altman stwierdził, ze Google mógł zmiażdżyć OpenAI w 2023 roku. OpenAI ogłasza stan najwyższej gotowości

Technicznie model składa się z trzech elementów. RGBA-VAE sprawia, że AI „widzi” zwykłe zdjęcia i przezroczyste warstwy w ten sam sposób, co zapobiega pustym dziurom i nieczytelnym krawędziom między warstwami. Architektura VLD-MMDiT obsługuje zmienną liczbę warstw, od 3 do ponad 10, jednym przejściem, bez powtarzania procesu. Szkolenie przebiegało stopniowo. Model najpierw uczył się generować obrazy, potem tworzyć warstwy, aż wreszcie opanował rozkładanie zwykłych zdjęć na niezależne elementy. Model trenowano na danych ekstrapolowanych z dokumentów PSD Photoshopa, co gwarantuje wysoką jakość warstwowej separacji semantycznej.

Alibaba prezentuje model AI Qwen-Image-Layered do dekompozycji obrazów na warstwy RGBA z pełną edytowalnością [3]

Sony chce cenzurować Twoje gry. Opatentowało system AI do automatycznej cenzury treści w grach w czasie rzeczywistym

W praktyce oznacza to rewolucję dla użytkownika. Możesz zmienić kolory konkretnego obiektu, zastąpić postać inną, modyfikować tekst, usuwać elementy czy przeskalowywać je bez deformacji, a wszystko bez ryzyka zepsucia reszty kompozycji. Co więcej, każdą warstwę można dalej rekursywnie dekomponować, osiągając nieskończoną precyzję edycji. Na tle konkurencji jak Adobe Firefly czy metody inpainting w Stable Diffusion, Qwen-Image-Layered oferuje ogromną przewagę, czyli fizyczną izolację komponentów obrazu zamiast probabilistycznego maskowania.

Alibaba prezentuje model AI Qwen-Image-Layered do dekompozycji obrazów na warstwy RGBA z pełną edytowalnością [4]

Google Disco to nowa przeglądarka na Chromium z technologią GenTabs zmieniającą karty w interaktywne aplikacje webowe

To podejście przypomina skok z edycji destrukcyjnej do niedestrukcyjnej, jaki Photoshop wprowadził dwie dekady temu, tyle że teraz automatycznie i napędzane przez AI. Model jest już dostępny jako open source na platformach GitHub, HuggingFace i ModelScope. Długofalowo technologia dekompozycji warstwowej może stać się nowym standardem w edycji grafiki, zastępując tradycyjne metody maskowania i inpainting wszędzie tam, gdzie wymagana jest precyzja i zachowanie spójności wizualnej.

Źródło: Qwen, Reddit, arXiv, AI Base, HuggingFace