FFmpeg, das weitverbreitete Multimedia-Framework, integriert Whisper: Mit der neuen Funktion können Nutzer ihre Audioinhalte direkt innerhalb von FFmpeg automatisch transkribieren. Das auf maschinellem Lernen basierende Spracherkennungssystem stammt von OpenAI. Die Neuerung ist Teil von FFmpeg 8.0, das in den kommenden Wochen freigegeben werden soll.

Der neue Whisper-Filter in FFmpeg arbeitet lokal, überträgt also keine Inhalte in die Cloud. Voraussetzung ist die whisper.cpp-Library, anschließend aktiviert ein –enable-whisper das Feature. Standardmäßig erkennt die Software die Sprache automatisch, Whisper kann Audioaufzeichnungen in über 90 Sprachen transkribieren. Im Zweifel lässt sich aber eine Sprache vorgeben; dasselbe gilt für den Einsatz einer GPU, der im Default aktiviert ist.

Auf Wunsch kann der neue Filter auch SRT-Dateien für Videos erstellen oder für Live-Übertragungen den Ton transkribieren. Ferner lassen sich die per Whisper übertragenen Informationen in FFmpeg weiterverwenden oder in einem automatisierten Workflow an andere Anwendungen weiterreichen. Bislang mussten Nutzer und Entwickler für solche Funktionen auf mehrere Tools zurückgreifen, was die Integration erschwerte.

FFmpeg erscheint als Open-Source-Software; dasselbe gilt für Whisper. Ein erster Einblick in die Integration findet sich hier.

(fo)

Dieser Link ist leider nicht mehr gültig.

Links zu verschenkten Artikeln werden ungültig,
wenn diese älter als 7 Tage sind oder zu oft aufgerufen wurden.

Sie benötigen ein heise+ Paket, um diesen Artikel zu lesen. Jetzt eine Woche unverbindlich testen – ohne Verpflichtung!