Google har nettopp introdusert den nye modellen i Gemini -appen «Nano Banana» (Kodenavnet på modellen Gemini 2.5 Flash -bilde), utviklet av DeepMind (selskapet kontrollert av alfabet som utvikler løsninger til AI). Dets særegenhet er ikke så mye i evnen til å generere realistiske bilder, som i konsistensen som klarer å gi til sistnevnte. For å oversette saken til små begrep, med denne nye modellen hvis du beholder ansiktet til en venn eller hund for å sette den inn i forskjellige sammenhenger, vil systemet kunne bevare sine særegne trekk på en stabil og gjenkjennelig måte, og minimere muligheten for å gå inn i urealistiske resultater. Dette åpner upubliserte kreative muligheter: fra enkle endringer i utseende, til sammenslåing av flere fotografier for å gi liv til nye scener. Alt uten å miste likhet med de opprinnelige fagene, en av de vanskeligste aspektene som må oppnås med tidligere generasjoner av modeller.
Du kan dermed forestille deg deg i et tiår, forvandle et nakent rom til et møblert miljø med få kontroller eller til og med kombinere de grafiske motivene til ett objekt med et annet, for eksempel å bruke mønsteret til vingene til en sommerfugl på en kjole. Redigering er ikke lenger en teknisk prosess forbeholdt fagpersoner, men blir noe ekstremt demokratisk og tilgjengelig for alle. Og som en garanti for åpenhet, bringer alle bilder med seg synlige og digitale usynlige digitale som bekrefter AI -inngrepet.
Hva kan Nano Banana gjøre, den nye Google AI -modellen
Den nye modellen Nano Banana (Kode navn på Gemini 2.5 Flash -bilde), en arkitektur designet for å garantere betydelige resultater. En av de historiske utfordringene med de generative systemene er faktisk deres ikke -målministiske natur: den samme ledeteksten, det vil si at tekstinstruksjonene gitt til en chatbot AI, kan gi veldig forskjellige resultater avhengig av tilfeldigheten i modellen. Dette fenomenet gjorde det vanskelig å holde delikate detaljer så intakte, for eksempel funksjonene i ansiktet, proporsjoner av kroppen eller karakteristiske trekk ved et kjæledyr. Med Nano Banana lar det kontekstuelle minnet systemet «huske» detaljene som allerede er utviklet, og tilbyr en mer ensartet resultat mellom en modifisering og en annen.
Dette betyr at hvis du bestemmer deg for å gi modellen et bilde av deg, og ber ham om å forvandle deg til en MatadorI en maler eller i hovedpersonen til en sitcom på 90 -tallet, vil ansiktet ditt alltid forbli gjenkjennelig, som det kan sees fra eksemplet i følgende video.
Et annet nyskapende aspekt er muligheten for Smelt flere fotografier. Det er mulig å kombinere to fag som er til stede i to distinkte og separate bilder, og begge kombineres i et utgangsbilde som går langt utover en enkel collage: bildet som er returnert som et endelig resultat er et bilde som er i samsvar med det originale innholdet, som kan se autentisk ut. I eksemplet som er til stede i den følgende videoen, kan du se hvordan bildet av en jente og det av en hund ble slått sammen slik at jenta kjærtegnet kjæledyret hennes i utgangsbildet. Det er sannsynligvis det mest klare eksemplet på hvor kraftig og presis denne modellen er.
Modellen støtter også So -Called Multi-sving redigeringdet vil si en sekvens av påfølgende endringer som akkumulerer sammenhengende transformasjoner. Du kan starte med et tomt rom, endre fargen på veggene, sette inn et bord, legge til bokhyller eller malerier, uten at de tidligere trinnene går tapt eller forvrengt. Denne trinnvise tilnærmingen er mye mer lik menneskelig designarbeid og lar deg bygge komplekse scener i flere faser.
Hvis du vil teste disse egenskapene til Banana Nano -modellen, vet du at du kan gjøre det, siden Google i en offisiell merknad har bekreftet tilgjengeligheten i Geminis app både for brukere med abonnement og de gratis, og har kunngjort at Nano Banana -modellen snart vil være tilgjengelig for utviklere gjennom dedikerte bier og i profesjonelle miljøer som studier og Vertex AI.
Hvert modifisert bilde har et vannmerke, eller rettere sagt to
Gitt resultatene for å si det minst utmerket at det er mulig å oppnå med et så kraftig verktøy. Når det gjelder sikkerhet og åpenhet, er hver utgang produsert med Gemini preget av en synlig filigran som tydelig viser den kunstige opprinnelsen til bildet, og fra en Usynlig synthid digital filigran. Sistnevnte er vesentlig en markør som forblir påvisbar selv etter utklipp eller endringer og er designet for å bekjempe eventuelle feil bruk av AI.