Świat generatywnej AI, wbrew obawom sceptyków, nie zwalnia tempa. W ostatnich miesiącach walka o fotel lidera na rynku wideo AI toczy się w błyskawicznym tempie, a każdy kolejny zaprezentowany model redefiniuje pojęcie realizmu cyfrowej kreacji. Po mocnym wejściu OpenAI z modelem Sora, Google zdecydowało się na kolejny krok. Właśnie otrzymaliśmy znaczące ulepszenie Veo. Ma szansę zdetronizować obecnych faworytów?
Najnowsza wersja modelu Veo 3.1 koncentruje się na znacznym ulepszeniu płynności ruchu, które skutecznie maskuje największą bolączkę generatywnej sztucznej inteligencji wideo.
Google Veo 3.1 to znacznie więcej niż kolejna iteracja modelu AI. Firma wprowadza funkcje, których wcześniej brakowało nawet najlepszym konkurentom. Największą nowością jest natywny dźwięk dostępny we wszystkich narzędziach Google Flow, platformy do tworzenia filmów AI. Funkcje „Ingredients to Video”, „Frames to Video” czy „Extend” teraz automatycznie generują nie tylko obraz, ale także odpowiedni soundtrack, dialogi i efekty dźwiękowe. To jak przejście od niemego kina do pełnego dźwięku, różnica jest spora. Wcześniej twórcy musieli osobno dodawać audio w postprodukcji, teraz wszystko dzieje się jednocześnie. Model obsługuje rozdzielczość do 1080p przy 24 fps, generując klipy o długości 4-8 sekund, które można rozszerzać nawet do 148 sekund przy użyciu funkcji „Extend”.
Najważniejszą zmianą jest też wsparcie dla formatów pionowych 9:16, idealnych dla YouTube Shorts, TikToka czy Instagram Reels. Google w końcu zrozumiał, że przyszłość treści wideo to formaty mobilne. Platforma już zapowiedziała integrację Veo z YouTube Shorts, co może całkowicie przebudować rynek krótkiej formy wideo. Nowe możliwości edycji to kolejny krok naprzód. Funkcja „Insert” pozwala dodawać obiekty do istniejących scen z naturalnym oświetleniem i cieniami, a nadchodząca opcja „Remove” umożliwi usuwanie niepożądanych elementów. Google wprowadza także lepszą kontrolę nad kamerą, kątami i perspektywami, dając twórcom narzędzia znane z profesjonalnego filmowania.
Porównując z OpenAI Sora 2, Veo 3.1 prezentuje bardziej kinematograficzne, dopracowane podejście. Gdzie Sora najlepiej radzi sobie z naturalnymi, amatorskimi nagraniami przypominającymi filmy z telefonu, Google stawia na profesjonalny, studyjny wygląd. To nie jest przypadek. Firma celuje w rynek enterprise i twórców komercyjnych, którzy potrzebują przewidywalnych, wysokiej jakości rezultatów. Cennik pozostaje bez zmian, czyli 0,40 dolara za sekundę wideo w modelu standardowym, 0,15 dolara w trybie szybkim. To konkurencyjne stawki, szczególnie biorąc pod uwagę natywny dźwięk i rozszerzone możliwości edycji. Wszystkie filmy są znakowane technologią SynthID, co ma znaczenie w kontekście walki z deepfejkami.
Od uruchomienia Google Flow pięć miesięcy temu użytkownicy wygenerowali ponad 275 milionów filmów. To imponująca skala pokazująca, jak szybko rynek wideo generowanego dzięki sztucznej inteligencji się rozwija. Dla polskich twórców to szczególnie istotne. Tego typu technologia daje możliwość tworzenia profesjonalnych treści bez konieczności posiadania drogiego sprzętu filmowego czy też umiejętności montażu i otwiera nowe ścieżki kariery.
Źródło: Google Blog