Sie lesen den KI-Newsletter "Natürlich intelligent" vom 11. Juli 2024. Um den Newsletter jeden zweiten Donnerstag per Mail zu erhalten, melden Sie sich hier an.

Wissen Sie noch, die Frau, die durch Tokio läuft? Als OpenAI im Februar seine Video-KI Sora vorstellte, waren das Internet – und ich – ganz aus dem Häuschen, wie realistisch sich die künstlich generierten Stöckelschuhe in den dramatisch beleuchteten Pfützen einer Innenstadt spiegelten.

Erzeugt wurde das Video nach Angaben von OpenAI nur anhand eines kurzen Textbefehls, sah aber aus wie gefilmt. Das war besser als alles, was Video-KIs bis dahin erzeugen konnten. Aber es war nur ein Beispielvideo. Bis heute, fünf Monate später, ist Sora nicht öffentlich verfügbar. 

Seit vergangener Woche aber ist das erste Konkurrenzprodukt offen zugänglich, das zumindest ansatzweise ähnlich gute Ergebnisse liefert. Es kommt von dem New Yorker Start-up Runway und trägt den Titel Gen-3.

Wer ein Abo der Software abschließt, kann mit Text-Prompts bis zu zehn Sekunden lange Videos erzeugen. Die Ergebnisse sind nicht perfekt, aber faszinierend genug, dass es Spaß macht, mit ihnen zu experimentieren und immer noch einen neuen Befehl auszuprobieren, um zu sehen, was Runway daraus kreiert. 

Im Februar, als OpenAI Sora vorstellte, habe ich ein Experiment durchgeführt: Ich gab einige der Befehle ein, die OpenAI laut eigenen Angaben für die Sora-Demovideos verwendete, und verglich sie mit den Ergebnissen von Runway. Denn auch damals hatte Runway bereits eine sogenannte Text-to-Video-KI im Angebot. Dieses Vorgängermodell Gen-2 allerdings lieferte deutlich schlechtere Ergebnisse als Sora.  Zum Beispiel verwandelte sich ein generiertes Mammut im Verlauf eines wenige Sekunden langen Videos in einen braunen Klumpen.

Jetzt habe ich das Experiment wiederholt und muss sagen: Die nun mit Gen-3 erzeugten Videos können schon eher mithalten. Hier sehen Sie einen Screenshot eines mit Runway generierten Videos. Das ganze Video können Sie unter diesem Link sehen. Das Beispielvideo von Sora mit dem gleichen Motiv finden Sie hier.

Screenshot aus einem KI-Video. Prompt: "A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about." © Generiert mit Runway von Jakob von Lindern für ZEIT ONLINE

Zugegeben, das Frau-in-Tokio-Video von Runway ist nicht ganz so atemberaubend detailliert wie das von Sora. Aber die KI setzt die Anweisung präzise um, die Lichtspiegelungen auf dem Boden sind stimmungsvoll – und einigermaßen realistisch. Bei genauerer Betrachtung verheddern sich die Beine der Frau an einer Stelle auf unnatürliche Weise, aber etwas Ähnliches passiert sogar in dem Sora-Video an einer Stelle.   

Es steht zu vermuten, dass die OpenAI-Demovideos die besten von vielen Versuchen sind, denn die Ergebnisse solcher KI-Systeme sind oft nicht besonders gut vorhersehbar. Nicht auszuschließen, dass auch bei Runway nach vielen Durchläufen fast perfekte Versionen der jeweiligen Videos herauskommen würden.

Wie in anderen KI-Bereichen auch gibt es aber nun eine Art Kommodifizierung. Was zunächst die Sensation eines Vorreiters war, ist schon einige Monate mehr oder weniger für alle (zahlenden Kunden von Runway) verfügbar.

Wer vor einem Jahr versucht hat, ein Video nur anhand von Text zu erzeugen, wurde von Pixelbrei enttäuscht. Das Video der Frau in Tokio, das man heute generieren kann, würde zumindest als Skizze taugen. Mit etwas Nachbearbeitung wären solche Clips auch für Werbespots verwendbar. Und in einem Jahr? In fünf? Gibt es dann ganze Filme per Textbefehl? 

Der CEO von Runway, Cristóbal Valenzuela, vergleicht in einem Podcastinterview KI-generierte Videos mit der Erfindung der Kamera. Er sagt, in dieser Analogie befinden wir uns in einem Zustand wie in den 1910er-Jahren. Die Kamera funktionierte, aber sie filmte nur schwarz-weiß und kaum jemand wusste, was man damit eigentlich anfangen soll. Aber kurz darauf kam Hollywood. 

Ob das stimmt? Man muss vorsichtig damit sein, allzu schnell davon auszugehen, dass die Zukunft schon da ist, nur weil erste Anzeichen sie möglich scheinen lassen. Man sollte aber auch nicht den Fehler machen, eine Technik nach den ersten, holprigen Gehversuchen als nutzlos abzuschreiben. Immerhin: Mit Runway Gen-3 kann sich nun jeder selbst ein Bild – oder vielmehr ein Video – machen.

Links zum Weiterlesen

Über KI nachdenken

Mit KI herumspielen 

  • Mit dieser Sprach-KI eines Pariser Start-ups kann man flüssig reden. Inhaltlich kommt nicht allzu viel dabei herum, aber von einem Chatbot unterbrochen zu werden, ist ein neues Gefühl: https://moshi.chat/?queue_id=talktomoshi.
  • Noch eine Video-KI, die man ausprobieren kann. Ehemalige DeepMind-Mitarbeiter haben Haiper vorgestellt, das vier Sekunden lange Clips erzeugt: https://haiper.ai/
  • Vor lauter Video sollten statische Bilder nicht untergehen. Stable Diffussion 3 ist seit einiger Zeit verfügbar – drei Tage lang auch kostenlos: https://stability.ai/stable-assistant.