Ein internationales Team von Forschern der Stanford University und des Versicherungskonzerns Axa hat untersucht, wie sich der Energieverbrauch von Diffusionsmodellen systematisch vorhersagen lässt, also der Architektur, auf der bildgenerierende KI-Systeme aufbauen. Beliebte Beispiele sind DALL-E, Midjourney oder Googles Nano Banana. Während der hohe Energieverbrauch von Sprachmodellen wie ChatGPT und anderen Transformer-Architekturen bereits weithin bekannt ist und wissenschaftlich untersucht wurde, rücken nun die gleichermaßen rechenintensiven Diffusionsmodelle in den Fokus der Nachhaltigkeitsforschung.
Weiterlesen nach der Anzeige
Boris Ruf ist Data Scientist bei AXA und Experte für nachhaltige KI.
In ihrem Forschungspapier „Energy Scaling Laws for Diffusion Models“, das die Wissenschaftler Anfang Dezember auf einem Workshop der EurIPS-Konferenz vorstellen, zeigen sie, wie die Komplexität dieser Algorithmen theoretisch modelliert werden kann. Auf Grundlage der für die Generierung eines Bildes erforderlichen Rechenoperationen (FLOPs) lässt sich dann der Stromverbrauch ableiten.
Bildmodelle brauchen bis zu zehnmal mehr Energie als Sprachmodelle
Die Forscher adaptierten für die Vorhersage die Kaplan-Skalierungsgesetze von OpenAI, die ursprünglich entwickelt wurden, um die Leistungsfähigkeit von Sprachmodellen in Abhängigkeit von Modellgröße, Datenmenge und Rechenaufwand vorherzusagen. In der neuen Variante ermöglichen sie es, den Energieverbrauch von Diffusionsmodellen anhand der benötigten FLOPs abzuschätzen. Für die Experimente kamen Open-Source-Bildgeneratoren wie Stable Diffusion, Flux und Qwen zum Einsatz. Die Untersuchung berücksichtigt verschiedene Kombinationen von Hardware, der Anzahl der Schritte im Generierungsprozess, der Bildauflösung und der Berechnungspräzision untersucht. Dabei kamen Nvidia-GPUs der Serien A100, RTX A4000 und RTX A6000 ADA zum Einsatz.
Das Ergebnis: Je nach Konfiguration kann ein einziges Bild bis zu zehnmal mehr Energie verbrauchen als eine durchschnittliche ChatGPT-Anfrage, die laut OpenAI-CEO Sam Altman etwa 0,34 Wattstunden benötigt. Insbesondere in Abhängigkeit der Auflösung variiert der Energiebedarf erheblich – von 0,051 Wattstunden bei 512 × 512 Pixeln bis zu 3,58 Wattstunden bei 1024 × 1024 Pixeln pro Bild.
Das Verfahren der Forscher soll dabei modellübergreifend funktionieren. Auf einem Modell trainiert, kann es den Energieverbrauch anderer Architekturen vorhersagen – sogar bei unterschiedlicher Hardware. Das ermöglicht Schätzungen für proprietäre, geschlossene Systeme wie DALL-E oder Midjourney, bei denen die Betreiber bisher keine Verbrauchsdaten veröffentlichen.
Weiterlesen nach der Anzeige
Die Forschung in der Praxis
Die Studie bietet einen umfassenden, wissenschaftlich fundierten Ansatz zur Energieplanung für KI-Bildgeneratoren. Entwickler können damit verschiedene Diffusionsmodelle hinsichtlich ihres Energieverbrauchs vergleichen, und Anbieter sind in der Lage, das zu erwartende Energieaufkommen bereits vor der Inbetriebnahme abzuschätzen. Die Forscher hoffen, mit diesen Erkenntnissen die effiziente Entwicklung und Implementierung von KI-gestützten Bild- und Videogeneratoren zu fördern.
Der Preprint der Studie findet sich auf arXiv.
Transparenzhinweis: Boris Ruf ist Co-Autor der vorgestellten Studie.
(pst)
Dieser Link ist leider nicht mehr gültig.
Links zu verschenkten Artikeln werden ungültig,
wenn diese älter als 7 Tage sind oder zu oft aufgerufen wurden.
Sie benötigen ein heise+ Paket, um diesen Artikel zu lesen. Jetzt eine Woche unverbindlich testen – ohne Verpflichtung!