Voice Generator: OpenAI stellt KI-Modell zum Klonen von Stimmen vor

OpenAI stellt Voice Engine vor, ein KI-Modell zum Klonen von Stimmen, das unter anderem von HeyGen, aber auch für die Sprachfunktion von ChatGPT genutzt wird.

In Pocket speichern vorlesen Druckansicht 17 Kommentare lesen
Germany,-,January,24,2023:,Openai,Logo,On,The,Phone,And

(Bild: Camilo Concha / Shutterstock.com)

Lesezeit: 3 Min.

Nach der Video-KI Sora stellt OpenAI "Voice Engine" vor, ein KI-Modell zum Klonen von benutzerdefinierten Stimmen, die unter anderem auch von HeyGen für seinen gleichnamigen, lippensynchronen KI-Video-Übersetzer genutzt wird. Voice Engine kann durch Texteingabe und auf Basis einer 15-sekündigen Audioaufnahme natürliche Stimmen erzeugen, die der Sprecherstimme sehr nah kommen, wie auch Audiobeispiele im Blogeintrag des Unternehmens zeigen.

Damit scheint OpenAI sich jetzt nach Suno AI, ElevenLabs und Co. verstärkt auf das Klonen von Stimmen zu konzentrieren. Mit Voice Engine sollen Inhalte in der Stimme der Sprecher übersetzt und generiert werden, "damit Youtuber und Unternehmen mehr Menschen fließend und mit ihrer eigenen Stimme erreichen können". Die KI braucht dazu laut OpenAI lediglich eine 15-sekündige Aufnahme der Stimme des zu kopierenden menschlichen Sprechers.

Open AI sei sich Missbrauchspotenzials gerade im Wahljahr bewusst. Deshalb arbeite man mit Partnern aus den Bereichen "Regierung, Medien, Unterhaltung, Bildung und Zivilgesellschaft zusammen". Es sei wichtig, deren Feedback bei der Entwicklung zu berücksichtigen. So werde Voice Engine seit Ende letzten Jahres von ausgewählten Partner getestet, um Erfahrungen zu sammeln. Anfang Januar hatte das Unternehmen seine Nutzungsbedingungen für KI-Tools entsprechend erweitert.

Derzeit entscheide sich das Unternehmen laut eigenen Angaben "für eine Vorschau, aber keine umfassende Veröffentlichung dieser Technologie". Basierend auf den Ergebnissen der Tests im kleinen Maßstab werde OpenAI zufolge künftig eine "fundiertere Entscheidung" darüber getroffen, "ob und wie wir diese Technologie im großen Maßstab einsetzen".

Ende 2022 habe das Unternehmen laut Blogeintrag damit begonnen, die Technologie zu entwickeln. Daraus entstand etwa die Integration einer Sprachfunktion in ChatGPT. Zu weiteren Projekten, bei denen Voice Engine zum Einsatz kommt, gehört unter anderem "Age of Learning", eine Lesehilfe für Kinder und Nichtleser, die Übersetzung von Inhalten bis hin zur Unterstützung von Menschen, die nicht sprechen können. Auch das auf den Gesundheitsbereich spezialisierte Unternehmen Dimagi Inc. setzt auf die Voice Engine und GPT-4. Das Unternehmen Livox arbeitet für seine Kommunikations-App ebenfalls mit OpenAI zusammen.

Als Beispiel führt OpenAI das Norman Prince Neurosciences Institute bei Lifespan auf, die als Lehreinrichtung dient, nutzt die Kommunikations-App im Rahmen eines Pilotprojektes. Dabei sollen Patienten ihre Stimme zurückbekommen, die sie etwa aufgrund von onkologischer oder degenerativer Erkrankungen verloren haben. So ließ sich beispielsweise die Stimme einer jungen Patientin wiederherstellen, die aufgrund eines Hirntumors nicht mehr fließend Sprechen konnte. Als Input für das Sprachmodell wurde ein für die Schule aufgenommenes Video verwendet.

Angesichts der Risiken, die mit der Erzeugung von Sprache, die Menschen ähnelt, einhergehen, hat OpenAI eine Reihe von Sicherheitsmaßnahmen umgesetzt. Dazu gehören unter anderem Wasserzeichen zur Rückverfolgung der Herkunft jeglicher von der Voice Engine erzeugten Audiodaten und die proaktive Überwachung ihrer Nutzung.

OpenAI betont, dass jede breite Einführung von synthetischer Sprachtechnologie durch Stimmerkennungserfahrungen begleitet werden sollte. Menschen sollten laut OpenAI aufgeklärt werden, um die Fähigkeiten und Grenzen der KI-Technologien zu verstehen, einschließlich der Möglichkeit von irreführenden KI-Inhalten.

(mack)