HOME

Deep Fakes: Fake-Videos und Stimm-Imitation: Warum uns allen Erpressung in "Mission Impossible"-Manier droht

Ein Kunstprojekt ließ Mark Zuckerberg Milliarden Datendiebstähle über Facebook gestehen. Das Problem dahinter trifft nicht nur Konzern-Bosse. Mit automatisierten Fake-Videos und Stimm-Imitationen wird es immer einfacher, eine digitale Identität zu stehlen - und diese Macht zu missbrauchen.

Es ist ein irritierender Anblick: Mark Zuckerberg sitzt in einem hellen Büro - und verkündet völlig unbeschwert, dass er mit den gestohlenen Daten seiner Milliarden Nutzer auch ihre Zukunft kontrollieren kann. Selbst wenn man weiß, dass es sich um einen Fake handelt, fällt es schwer, die Anzeichen dafür zu entdecken. Der Clip zeigt, wie weit Künstliche Intelligenz bei der Imitation der Realität ist - und welches Gefahrenpotenzial das birgt.

Während Fotos schon sehr lange einfach zu manipulieren waren, ist das Vertrauen in Stimm- und Videoaufzeichnungen immer noch recht groß. Klar, dass in Kino-Filmen viel getrickst wird, wissen wir alle. Im Alltag war der Aufwand dafür aber viel zu groß. Es ist schließlich kein Zufall, dass gefälschte Videos von Personen und nachgemachte Stimmen noch vor kurzer Zeit Stoff für Agenten-Thriller a lá "Mission Impossible" waren. Die aktuelle Entwicklung ändert das nun aber drastisch.

Deep Fakes als neue Norm?

Dabei geht es nicht nur um kleine Manipulationen, wie das künstlich verlangsamte Sprechen, das in einem viralen Clip die US-Politikerin Nancy Pelosi betrunken wirken ließ. Dank Künstlicher Intelligenz ist es mittlerweile möglich, mit wenig Aufwand und geringen technischen Kenntnissen Personen in nahezu beliebige Situationen zu schneiden.

Das beste Beispiel sind sogenannte "Deep Fakes", bei denen ein Gesicht und die Mimik auf einen anderen Körper gelegt werden. Den Namen verdanken sie ihrem Erfinder, der sich in Anlehnung an Googles KI-Programm "Deep Dream" so nannte. Berühmt wurde er, weil er die Technik nutzte, um aus Pornos und den Gesichtern von Prominenten Celebrity-Sexszenen zu basteln.

Erschreckend wenig Aufwand

Die Technik dahinter ist geradezu schockierend einfach: Indem man eine Künstliche Intelligenz mit Fotos und Video-Aufnahmen einer Person füttert, kann diese mit Maschinellem Lernen die Eigenheiten der Person auswerten - und das Gesicht dann selbst in andere Szenen einfügen. Im Falle von Zuckerbergs Video funktioniert das etwa so gut, dass selbst Blinzeln, Mimik und Gestik imitiert werden - zusätzlich zum perfekt lippensynchronen Sprechen eines vorgegebenen Textes.

Auch bei der Stimm-Imitation ist man inzwischen sehr weit. Der chinesische Konzern Baidu zeigte etwa im Frühjahr eine KI, die Stimmen mit nur 3,7 Sekunden Aufzeichnungsmaterial rudimentär imitieren kann. Vorher brauchte man minutenlange Aufzeichnungen. Hat man wie bei Promis Zugriff auf viele Stunden Material, kann man Menschen in perfekt imitierter Stimme, inklusive Intonation, Betonung und Akzent, nahezu alles in den Mund legen. Wie etwa in diesem Clip der den umstrittenen Psychologen Jordan Peterson einen Eminem-Text rappen lässt.

Mit dem Fortschritt der Technik steigt natürlich auch das Missbrauchs-Potenzial. Mit den Unmengen der verfügbaren Bilder und Videos aus den sozialen Netzwerken hätte eine KI heutzutage zu Milliarden Menschen genug Material, um sie in kompromittierende Situationen zu schneiden - und sie dann damit zu erpressen.  

Vor allem bei Stimmen könnte das ein Problem werden: Während wir bei Bildern Fälschungen schon an kleinen Details erkennen können, fällt uns das bei digital generierten Stimmen deutlich schwerer, das zeigte eine aktuelle Studie. Unser Hirn ist demnach schlicht nicht in der Lage, große Unterschiede zwischen einer echten Stimmaufzeichnung und einer digital generierten auszumachen. Bei Bildern bemerkten die Wissenschaftler selbst dann neuronale Unterschiede in der Reaktion, wenn die Betrachter das Original nicht bewusst von einer Fälschung unterscheiden konnten. Beim Hören blieb dieser Effekt aus.

Der KI-Experte Alex Champandard gab sich letztes Jahr gegenüber "Vice" trotzdem optimistisch: Genauso wie man die Video- und Audio-Fälschungen mit Künstlicher Intelligenz kreieren kann, wird man sie mit ihrer Hilfe erkennen, gab er sich sicher. Vermutlich lernen die Menschen aber auch einfach, mit dem gefälschten Material zu leben. So, wie man es mit den alltäglichen Manupilationen durch Instagram-Filter ja auch gelernt hat.

Quellen: Forbes, Instagram, Vice, The Register, Quartz