{"id":617972,"date":"2025-12-02T12:53:18","date_gmt":"2025-12-02T12:53:18","guid":{"rendered":"https:\/\/www.europesays.com\/de\/617972\/"},"modified":"2025-12-02T12:53:18","modified_gmt":"2025-12-02T12:53:18","slug":"apple-probiert-bei-video-ki-einen-anderen-weg","status":"publish","type":"post","link":"https:\/\/www.europesays.com\/de\/617972\/","title":{"rendered":"Apple probiert bei Video-KI einen anderen Weg"},"content":{"rendered":"<ol class=\"a-toc__list\">\n<li class=\"a-toc__item&#10;          &#10;            a-toc__item--counter&#10;          &#10;            a-toc__item--current\">\n<p>              Apple probiert bei Video-KI einen anderen Weg<\/p>\n<\/li>\n<\/ol>\n<p>W\u00e4hrend <a href=\"https:\/\/www.heise.de\/news\/Nach-Apple-Intelligence-Debakel-Apple-streicht-KI-Chefposten-11099412.html\" target=\"_blank\" rel=\"noopener\">das Management von Apples KI-Abteilung gerade umgebaut wird<\/a>, haben Forscher aus dem Team ein neues Video-KI-Modell ver\u00f6ffentlicht, das zumindest in der Fachwelt Aufsehen erregt. <a href=\"https:\/\/starflow-v.github.io\/\" rel=\"external noopener\" target=\"_blank\">STARFlow-V<\/a> verl\u00e4sst n\u00e4mlich den ausgetretenen Pfad der Diffusionsmodelle, die sehr weit verbreitet sind. Stattdessen nutzen die Forscher sogenannte Normalizing Flows \u2013 eine Technologie, die bei der Videogenerierung bislang kaum eine Rolle spielte.<\/p>\n<p>        Weiterlesen nach der Anzeige<\/p>\n<p>Wer sich die erzeugten Beispiele auf der <a href=\"https:\/\/starflow-v.github.io\/\" rel=\"external noopener\" target=\"_blank\">Projektseite bei Github<\/a> anschaut, erkennt recht schnell, was STARFlow-V von vergleichbaren KI-Modellen unterscheidet: Das Modell erzeugt die kurzen Videos deutlich realit\u00e4tsgetreuer und n\u00e4her an den Anforderungen, die im Prompt gestellt wurden. W\u00e4hrend es bei den anderen unerkl\u00e4rlich blinkt, auffallend unrealistisch aussieht oder typische KI-Effekte wie Verzerrungen zu sehen sind, liefert das Apple-Modell solide Qualit\u00e4t. Zwar haben die Videos nur eine Aufl\u00f6sung von 480p, aber Apple geht es anscheinend hier vor allem darum, die Machbarkeit unter Beweis zu stellen, weniger ein alltagstaugliches Modell abzuliefern.<\/p>\n<p>Was das Modell kann<\/p>\n<p>Das 7 Milliarden Parameter gro\u00dfe Modell kann Videos aus Textbeschreibungen generieren, Standbilder zu Videos erweitern und vorhandene Videos bearbeiten. Die Forscher haben STARFlow-V auf 70 Millionen Text-Video-Paaren und zus\u00e4tzlich 400 Millionen Text-Bild-Paaren trainiert. Das Modell erzeugt Videos mit 480p-Aufl\u00f6sung bei 16 Bildern pro Sekunde und einer L\u00e4nge von bis zu 5 Sekunden pro Segment.<\/p>\n<p>L\u00e4ngere Videos entstehen durch schrittweise Verl\u00e4ngerung: Das Ende eines 5-Sekunden-Segments dient als Ausgangspunkt f\u00fcr das n\u00e4chste. Auf der Projektseite zeigt Apple Beispiele von bis zu 30 Sekunden L\u00e4nge. Genau hier zeigt sich die St\u00e4rke der ungewohnten Architektur. Denn im Vergleich zu Diffusionsmodellen sind Videos, die mit Normalizing Flows erstellt werden, mathematisch umkehrbar. Das Modell kann so die Wahrscheinlichkeit eines generierten Videos exakt berechnen, ben\u00f6tigt keinen separaten Encoder f\u00fcr Eingabebilder und trainiert direkt von Ende zu Ende.<\/p>\n<p>In zeitlicher Reihenfolge berechnet<\/p>\n<p>        Weiterlesen nach der Anzeige<\/p>\n<p>Ein weiterer Unterschied: STARFlow-V generiert Videos streng autoregressiv \u2013 also Bild f\u00fcr Bild in zeitlicher Reihenfolge, sodass sp\u00e4tere Frames fr\u00fchere nicht beeinflussen k\u00f6nnen. Standard-Diffusionsmodelle entrauschen dagegen oft alle Frames parallel.<\/p>\n<p>Die Forscher haben dem Modell zudem eine &#8222;Global-Local-Architektur&#8220; verpasst: Grobe zeitliche Zusammenh\u00e4nge \u00fcber mehrere Sekunden werden in einem kompakten globalen Raum verarbeitet, w\u00e4hrend feine Details innerhalb einzelner Frames lokal behandelt werden. Das soll verhindern, dass sich kleine Fehler \u00fcber l\u00e4ngere Sequenzen aufschaukeln und ein Eigenleben entwickeln.<\/p>\n<p>F\u00fcr die Beschleunigung setzt STARFlow-V auf eine &#8222;video-aware Jacobi-Iteration&#8220;: Statt jeden Wert einzeln nacheinander zu berechnen, werden mehrere Bl\u00f6cke parallel verarbeitet. Das erste Frame eines neuen Segments wird dabei aus dem letzten Frame des vorherigen heraus entwickelt. Laut Apple erreicht das System so eine deutliche Beschleunigung gegen\u00fcber Standard-Autoregression.<\/p>\n<p>Oktopus entwischt aus dem Glas<\/p>\n<p>In Benchmarks auf VBench erreicht STARFlow-V Werte, die mit aktuellen Diffusionsmodellen mithalten k\u00f6nnen \u2013 allerdings noch deutlich hinter kommerziellen Systemen wie Veo 3 von Google oder Gen-3 von Runway zur\u00fcckliegen.<\/p>\n<p>Aber auch bei Apples Modell geht mal etwas schief: Der Oktopus im Glas l\u00e4uft einfach durch die Wand und ein Hamster l\u00e4uft im durchsichtigen Hamsterrad, als wenn er nicht von dieser Welt kommt. Die Inferenzgeschwindigkeit liegt trotz Optimierungen noch weit von Echtzeit entfernt.<\/p>\n<p>Was sind Apples Pl\u00e4ne?<\/p>\n<p>Im Ungef\u00e4hren bleibt auch, was Apple selbst mit dem Modell vielleicht anstellen m\u00f6chte: Denkbar w\u00e4re etwa, dass es aufgrund der geringen Gr\u00f6\u00dfe lokal auf Ger\u00e4ten eingesetzt wird. Auch die Verwendung als Weltmodell f\u00fcr Virtual- oder Augmented-Reality w\u00e4re vorstellbar. Und schlie\u00dflich k\u00f6nnte es auch f\u00fcr Apples angebliche Ambitionen in der Robotik von Nutzen sein.<\/p>\n<p>Interessierte k\u00f6nnen den Code auf GitHub einsehen. <a href=\"https:\/\/starflow-v.github.io\/\" rel=\"external noopener\" target=\"_blank\">Dort<\/a> ist auch ein Paper zum Modell verf\u00fcgbar.<\/p>\n<p>(<a class=\"redakteurskuerzel__link\" href=\"https:\/\/www.heise.de\/news\/mailto:mki@heise.de\" title=\"Malte Kirchner\" target=\"_blank\" rel=\"noopener\">mki<\/a>)<\/p>\n<p>\n      Dieser Link ist leider nicht mehr g\u00fcltig.\n    <\/p>\n<p>Links zu verschenkten Artikeln werden ung\u00fcltig,<br \/>\n      wenn diese \u00e4lter als 7\u00a0Tage sind oder zu oft aufgerufen wurden.\n    <\/p>\n<p><strong>Sie ben\u00f6tigen ein heise+ Paket, um diesen Artikel zu lesen. Jetzt eine Woche unverbindlich testen \u2013 ohne Verpflichtung!<\/strong><\/p>\n","protected":false},"excerpt":{"rendered":"Apple probiert bei Video-KI einen anderen Weg W\u00e4hrend das Management von Apples KI-Abteilung gerade umgebaut wird, haben Forscher&hellip;\n","protected":false},"author":2,"featured_media":617973,"comment_status":"","ping_status":"","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[135],"tags":[231,29,597,30,7901,196,1256,27707,190,189,194,425,191,193,192],"class_list":{"0":"post-617972","1":"post","2":"type-post","3":"status-publish","4":"format-standard","5":"has-post-thumbnail","7":"category-wissenschaft-technik","8":"tag-apple","9":"tag-deutschland","10":"tag-forschung","11":"tag-germany","12":"tag-github","13":"tag-it","14":"tag-kuenstliche-intelligenz","15":"tag-machine-learning","16":"tag-science","17":"tag-science-technology","18":"tag-technik","19":"tag-technologie","20":"tag-technology","21":"tag-wissenschaft","22":"tag-wissenschaft-technik"},"share_on_mastodon":{"url":"https:\/\/pubeurope.com\/@de\/115650075654363400","error":""},"_links":{"self":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts\/617972","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/comments?post=617972"}],"version-history":[{"count":0,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/posts\/617972\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/media\/617973"}],"wp:attachment":[{"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/media?parent=617972"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/categories?post=617972"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.europesays.com\/de\/wp-json\/wp\/v2\/tags?post=617972"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}