Generative KI: Vlogger erstellt Video auf Basis eines Bildes

Vlogger soll realistische Videos mit auf Basis eines einzigen Bildes und einer Audiodatei erstellen. Eine Übersetzungsfunktion ist ebenfalls integriert.

9

Aktuell wirken die mit Vlogger aus einem Bild erstellen Videos noch wie ein nachsynchronisiertes Werbevideo.

(Bild: Corona et al.)

21.03.2024, 18:55 Uhr

Lesezeit: 2 Min.

Von

Marie-Claire Koch

Forscher von Google haben ein Framework vorgestellt, mit dem sich ein Video anhand eines einzigen Bildes und einer Audioaufnahm erstellen lässt. Damit baut Vlogger auf dem Erfolg der letzten generativen Diffusionsmodelle auf. Erst kürzlich hat OpenAI beispielsweise die beeindruckende KI Sora vorgestellt, die aus einer Sprachanweisung ein nahezu photorealistisches Video generiert. Im Herbst 2023 kam mit "Hey Gen" eine KI, mit der sich Video-Aufnahmen in verschiedene Sprachen übersetzen lassen – plötzlich ist jeder mehrsprachig, wenn er oder sie will. Vlogger soll das alles vereinen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes Video (Kaltura Inc.) geladen.

Videos immer laden

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Kaltura Inc.) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Vlogger kann mit einem Bild und einer Audioaufnahme ein Video mit Sprache erzeugen.

(Quelle: Corona et al.)

Das Forscherteam rund um den Doktoranden Enric Corona von der Universitat Politècnica de Catalunya hat eine Methode entwickelt, die insgesamt mehr können soll, als bisherige Arbeiten. Anhand einer zweistufigen Pipeline sollen sich realistische Sprechvideos erzeugen lassen. In der ersten Stufe werden laut den Forschern Körperbewegungen mithilfe von Audioeingaben und einem Standbild erzeugt, auf dem ein Mensch mit einer Pose abgebildet ist. In Stufe zwei wird das Ergebnis mithilfe eines Bild-zu-Bild-Modells in Frames übersetzt.

Framework von Vlogger

(Bild: Corona et al.)

Dieser Ansatz soll Videos in variabler Länge erzeugen, deren Inhalte sich zudem kontrollieren lassen. So ist es beispielsweise möglich, anhand eines Bildes verschiedene Videos zu erzeugen, in denen sich die Person unterschiedlich bewegt. Im Vergleich zu einigen früheren Arbeiten soll Vlogger unter anderem ohne Trainingsdaten der einzelnen Personen auskommen. Darüber hinaus sollen die Bilder fotorealistisch und Audioaufnahmen sowie die Kontrolle des Körpers kontrollierbar sein.

Darüber hinaus ermöglicht Vlogger es, in bereits erzeugten Videos Details wie Gesichtsausdrücke anzupassen. In einem Beispiel ist unter anderem zu sehen, wie eine Person in der gleichen Sequenz die Augen oder wahlweise den Mund schließt.

Wie bei Hey Gen auch, ist es möglich, dass Videos in andere Sprachen übersetzt werden. An einem Beispielvideo fällt allerdings auf, dass die Lippenbewegungen nicht ganz zum Ton passen. Sie wirken teilweise nachsynchronisiert. Generell muten die mit Vlogger erzeugten Videos an manchen Stellen noch etwas künstlich an.

Lesen Sie auch

Colorful,Audio,Waveform,On,Virtual,Human,Background,,represent,Digital,Equalizer

Sieben KI-Komponisten im Vergleich: Musik erzeugen mit KI

(mack)

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}