Mit selbstbewusstem Gang spaziert die junge Frau durch die Straßen Tokios, ihr rotes Kleid leuchtet unter der Lederjacke. Auf der regennassen Straße reflektieren die Neonlichter, im Hintergrund wimmelt es von anderen Passanten. Langsam nähert sich unser Blick ihrem Gesicht – und das, ohne dass sich eine Kamera in der Sonnenbrille spiegelt. Denn der gestern veröffentlichte Clip wurde nicht gefilmt, sondern von Grund auf von einer Künstlichen Intelligenz erstellt.
Sora ist die neueste KI der Firma OpenAI, die mit ChatGPT quasi im Alleingang die wachsenden Fähigkeiten von KI auf die große Bühne der Öffentlichkeit katapultierte. Genau wie der Chat-Bot generiert auch Sora aus wenigen Worten beeindruckende Werke. Doch statt Texten oder Bilder lässt es gleich ganze Videoclips entstehen.
Von ChatGPT gelernt
Die Videos sehen erstaunlich echt aus. Das liegt an der Herangehensweise. Sora baut nicht einzelne Bilder nach. "Es versteht 3D-Geometrie und Konsistenz", erklärt Tim Brooks, der das Projekt als KI-Wissenschaftler betreut. "Wir haben das allerdings nicht eingebaut. Es lernt vollständig aus der Auswertung von Unmengen von Daten."
Um das möglich zu machen, kombiniert die Firma die Fähigkeiten seiner zwei bekannteren Projekte: Von der Bilderstellungs-KI Dall-E erbte Sora das Diffusionsmodell, also die Herangehensweise, wie Bilder ausgewertet und neu aufgebaut werden. Von der ChatGPT zugrunde liegenden KI GPT-4 erhielt es die sogenannte Transformer-Technologie, die der KI hilft, die Sprachbefehle umzusetzen.
Maximal 60 Sekunden lang sind die von Sora erstellten Videos bisher. Wie lange die Berechnung dauert, will die Firma noch nicht verraten. Man spreche aber eher von einer Wartezeit, die einer Mittagspause entspricht und nicht von ein paar Tagen, versichern die Entwickler gegenüber "Wired". Noch lassen sich die Videos nur mit Texteingaben generieren, je genauer diese sind, desto besser. Auch Regie-Anweisungen wie zu Kamerafahrten oder der Look bestimmter Linsen lassen sich umsetzen. Später soll auch noch die Möglichkeit folgen, Videos aus einem einzelnen Bild zu erstellen.
Überraschend realistisch
Die von der Firma gezeigten Beispiele sind durchaus beeindruckend. Der Spaziergang durch Tokio wirkt auch dann realistisch, wenn man genau aufs Detail achtet. Selbst kleinste Hautfalten im Gesicht der Protagonistin wirken in ihren Bewegungen sehr natürlich. Der Befehl zur Entstehung des Clips besteht nur aus wenigen Sätzen, beschreibt das Setting, Kleidung und Auftreten der Frau. Nur bei ganz genauem Hinsehen gibt es dann doch Merkwürdigkeiten. Warum sind die Straßen Tokios komplett autofrei, laufen alle Passanten in die gleiche Richtung? Und wieso ist der Boden auch in der offenen Fläche unter einem Gebäude klitschnass?
Kreativ sehr vielversprechend ist indes die Fähigkeit, Videos aus Kontexten zu generieren, mit denen die KI nicht gefüttert wurde. Ein Clip zeigt etwa eine bunte Rifflandschaft mit Korallen, Fischen und Schildkröten – die aber allesamt aus gefalteten Papier-Bögen bestehen. Gerade für Trickfilme entstehen so unzählige neue Möglichkeiten.
Angst vor den Folgen
Aber eben auch Gefahren. Man habe ein ausgeprägtes Bewusstsein für die Möglichkeiten, mit Sora Deepfakes oder Desinformationen zu erstellen, erklärten die Wissenschaftler "Wired". "Wir werden in Bezug auf die Sicherheits-Problematik sehr vorsichtig sein."
Das beginnt schon bei den grundsätzlich erlaubten Inhalten: Wie bei Dall-E und teilweise bei ChatGPT lässt OpenAI keine Gewaltdarstellung, keine Pornografie oder die Darstellung echter Personen oder geschützter Figuren aus anderen Werken zu. In Bezug auf Desinformation sieht Dall-Es Chef-Wissenschaftlerin Aditya Ramesh aber nicht nur OpenAI in der Pflicht. "Wir werden natürlich von unserer Seite gewisse Schutzmaßnahmen einbauen", erklärt sie in Bezug auf mögliche Fake-Videos. "Aber es wird auch Verständnis in der Bevölkerung und eine Anpassung der sozialen Netzwerke nötig sein."
In den letzten Wochen waren Deepfakes wieder ins Bewusstsein der Öffentlichkeit gelangt, nachdem gefälschte Pornobilder von Superstar Taylor Swift die Runde gemacht hatten. Auch in Bezug auf die anstehenden Wahlen in den USA und zahlreichen anderen Staaten wächst die Sorge vor Beeinflussung durch KI-generierte Inhalte.
Erst mal absichern
OpenAI scheint deshalb sogar ein bisschen Angst vor den Möglichkeiten seiner neuesten Schöpfung zu haben. Anders als ChatGPT oder Dall-E wird Sora nicht sofort für die breite Öffentlichkeit zur Verfügung stehen. Stattdessen soll eine ausgewählte Gruppe von Experten und Content-Entwicklern die KI auf Herz und Nieren testen, sie dabei auf mögliche Schwachstellen abklopfen.
Das hat durchaus gute Gründe. Die Sicherheits-Richtlinien von KI-Programmen sind oft erstaunlich einfach zu umgehen. Weil die zugrunde liegenden neuronalen Netzwerke auch mit Materialien trainiert werden, die sie nicht selbst erstellen sollen, reicht oft die richtige Kombination aus Schlagworten im Befehl, um auch Verbotenes herauszukitzeln. Etwa, indem man ChatGPT pornografische Texte schreiben oder sich Bombenbau-Anleitungen erstellen lässt. Auch die Deepfakes von Taylor Swift waren nur möglich, weil Microsofts KI auf einfache Tricks hereingefallen war (hier erfahren Sie mehr).
Bei realistisch aussehenden Videos wären die denkbaren Folgen noch einmal größer – etwa in Bezug auf gefälschte Propaganda-Videos aus Kriegsgebieten, politische Manipulation oder Sex-Darstellungen eigentlich Unbeteiligter oder gar Minderjähriger. Aber auch in Bezug auf Markenrechtsverstöße dürfte sich OpenAI schützen wollen: Bei zahlreichen Bilderstellungsprogrammen reichte es etwa aus, Comicdarstellungen einer Maus zu fordern – um Bilder der geschützten Mickey Maus zu bekommen. Von der berüchtigten Rechtsabteilung des Disney-Konzerns dürfte für solche Patzer wenig Verständnis zu erwarten sein.