VG-Wort Pixel

VALL-E Neue Microsoft-Software kann perfekt Stimmen imitieren – mit nur drei Sekunden Sprach-Vorlage

Wenige Sekunden reichen für die Imitation (Symbolbild)
Wenige Sekunden reichen für die Imitation (Symbolbild)
© Lazy_Bear / Getty Images
Die Stimme ist eines unserer natürlichsten Erkennungsmerkmale. Eine neue Microsoft-KI kann sie nun in kürzester Zeit nahezu perfekt nachzuahmen lernen. Die Risiken sind auch Microsoft bewusst.

Auch mit geschlossenen Augen oder am Telefon können wir andere Menschen an ihrer Stimme erkennen. Die Gewissheit, die richtige Person zu hören, wird in Zukunft allerdings schwanken. Mit einem neuen Software-Projekt will Microsoft auch Computer mit der Stimme einer echten Person sprechen lassen. Und dabei nicht nur deren Klang imitieren.

Am Donnerstag kündigte der Konzern das "VALL-E" getaufte Projekt an. Die Software analysiert eine bestehende Sprachaufnahme einer Person mit Hilfe künstlicher Intelligenz. Gibt man ihr dann einen Textprompt vor, kann sie den im Stile des Sprechers der Original-Aufnahme nachsprechen. Dabei übernimmt sie nicht nur den Klang der Stimme selbst, sondern imitiert auch den Sprachstil und sogar die "akustische Umgebung": Wurde die Aufnahme bei einem Anruf aufgezeichnet, klingt auch die nachgeahmte Version, als käme sie aus dem Telefon. Die wahre Revolution: Es reichen drei Sekunden gesprochener Text, um die Stimme zu imitieren.

Erstaunlich echt

Das Ergebnis ist beeindruckend - und gleichzeitig erschreckend. Auf der Programm-Webseite gibt der Konzern eine ganze Reihe von Klangbeispielen. Der "Speaker-Prompt" bezeichnet dort das dreisekündige Original. Als "Ground Truth" bezeichnet Microsoft eine Aufnahme, bei der der Original-Sprecher den dann als neuen Text genutzten Satz ebenfalls vorliest. Schließlich gibt es als sogenannte "Baseline" einen Vergleich mit herkömmlicher Vorlesesoftware. Vergleicht man nun die "Ground Truth" mit VALL-Es Aufnahme, ist die Computer-generierte Stimme oft kaum vom Original zu unterscheiden. Lediglich bei der Betonung und dem Klang gibt es ab und zu kleine Hinweise, die die künstliche Stimme etwas unnatürlich klingen lassen. Der Klang und die Art des Sprechens werden aber grundsätzlich immer gut getroffen.

Um diese Präzession zu erreichen, hat Microsoft seine KI mit 60.000 Stunden Audiomaterial von 7000 Sprechern trainiert, es handelt sich um Sprachaufnahmen aus dem Librilight-Datensatz des Facebook-Mutterkonzerns Meta. Der beinhaltet in erster Linie Hörbücher. Auch bei den Sprachbeispielen Microsofts dürften deshalb nicht zufällig ausschließlich um Literatur-Vorlagen handeln: Laut den Entwicklern funktioniert die Sprachsynthese aktuell vor allem dann besonders gut, wenn die genutzten Audio-Aufnahmen Stimmen aus dem genutzten Datensatz entsprechen. Sie liest also bislang Hörbücher am glaubwürdigsten vor. Würde man beliebige Sprechstimmen wählen, wäre das Ergebnis aktuell noch wenig glaubwürdig.

(Noch) kein Grund zur Panik

Als möglichen Nutzen für das Programm nennen die Entwickler vor allem das automatisierte Vorlesen von Texten auf menschlichem Niveau, etwa um Chats in Sprache zu übersetzen. Aber auch eine nachträgliche Überarbeitung gesprochener Aufnahmen um Fehler zu entfernen sei denkbar. Zudem könne man mit Hinzunahme weiterer KI-Modell auch komplett neue Sprachinhalte kreierten.

Doch auch Microsoft ist offenbar sehr bewusst, welches Missbrauchspotenzial in der Technik steckt. "Weil VALL-E bei der Verarbeitung der Stimme die Identität des Sprechers imitieren kann, trägt es ein mögliches Risiko für Missbrauch", erklärt schon die Ankündigung. "Man kann etwa Stimmerkennungs-Programme austricksen oder einen bestimmten Sprecher nachahmen." Um das zu verhindern, arbeite man an der Entwicklung von Software, die KI-generierte Stimmen auch als solche erkennt. Die sicher beste Schutzmaßnahme: VALL-Es Programmcode ist aktuell gar nicht erst für Dritte zugänglich. 

Vor deutschsprachigen VALL-E-Fakes muss man sich ohnehin noch nicht fürchten: Bisher spricht die KI ausschließlich Englisch.

Quelle:Microsoft

Mehr zum Thema

Newsticker