Generative KI: Vlogger erstellt Video auf Basis eines Bildes

Vlogger soll realistische Videos mit auf Basis eines einzigen Bildes und einer Audiodatei erstellen. Eine Übersetzungsfunktion ist ebenfalls integriert.

In Pocket speichern vorlesen Druckansicht 9 Kommentare lesen
Wenn aus einem Bild ein Film wird.

Aktuell wirken die mit Vlogger aus einem Bild erstellen Videos noch wie ein nachsynchronisiertes Werbevideo.

(Bild: Corona et al.)

Lesezeit: 2 Min.

Forscher von Google haben ein Framework vorgestellt, mit dem sich ein Video anhand eines einzigen Bildes und einer Audioaufnahm erstellen lässt. Damit baut Vlogger auf dem Erfolg der letzten generativen Diffusionsmodelle auf. Erst kürzlich hat OpenAI beispielsweise die beeindruckende KI Sora vorgestellt, die aus einer Sprachanweisung ein nahezu photorealistisches Video generiert. Im Herbst 2023 kam mit "Hey Gen" eine KI, mit der sich Video-Aufnahmen in verschiedene Sprachen übersetzen lassen – plötzlich ist jeder mehrsprachig, wenn er oder sie will. Vlogger soll das alles vereinen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Das Forscherteam rund um den Doktoranden Enric Corona von der Universitat Politècnica de Catalunya hat eine Methode entwickelt, die insgesamt mehr können soll, als bisherige Arbeiten. Anhand einer zweistufigen Pipeline sollen sich realistische Sprechvideos erzeugen lassen. In der ersten Stufe werden laut den Forschern Körperbewegungen mithilfe von Audioeingaben und einem Standbild erzeugt, auf dem ein Mensch mit einer Pose abgebildet ist. In Stufe zwei wird das Ergebnis mithilfe eines Bild-zu-Bild-Modells in Frames übersetzt.

Framework von Vlogger

(Bild: Corona et al.)

Dieser Ansatz soll Videos in variabler Länge erzeugen, deren Inhalte sich zudem kontrollieren lassen. So ist es beispielsweise möglich, anhand eines Bildes verschiedene Videos zu erzeugen, in denen sich die Person unterschiedlich bewegt. Im Vergleich zu einigen früheren Arbeiten soll Vlogger unter anderem ohne Trainingsdaten der einzelnen Personen auskommen. Darüber hinaus sollen die Bilder fotorealistisch und Audioaufnahmen sowie die Kontrolle des Körpers kontrollierbar sein.

Darüber hinaus ermöglicht Vlogger es, in bereits erzeugten Videos Details wie Gesichtsausdrücke anzupassen. In einem Beispiel ist unter anderem zu sehen, wie eine Person in der gleichen Sequenz die Augen oder wahlweise den Mund schließt.

Wie bei Hey Gen auch, ist es möglich, dass Videos in andere Sprachen übersetzt werden. An einem Beispielvideo fällt allerdings auf, dass die Lippenbewegungen nicht ganz zum Ton passen. Sie wirken teilweise nachsynchronisiert. Generell muten die mit Vlogger erzeugten Videos an manchen Stellen noch etwas künstlich an.

(mack)