Sora: Video-KI von OpenAI zeigt beeindruckende Ergebnisse

Veröffentlicht am 16. Februar 202418. Februar 2024 von Matthias Kindt

Nun hat also auch OpenAI ein “Text-2-Video-Tool” mit dem Namen Sora vorgestellt, das aktuell leider nur für eine ausgewählte Gruppe an Personen verfügbar ist. Bislang sind Anwendungen wie Pika & Runway erfolgreich am Markt und haben schon mit so manchen coolen Videos überzeugt, die mit einer simplen Texteingabe generiert wurden. In diesem Beitrag werden ein paar offizielle Videos gezeigt, die OpenAI auf seiner Webseite zum Download bereitstellt.

Siehe hierzu auch empfohlenen Beitrag von THE DECODER

Beeindruckender “Tokyo Walk” (1 Min)

Quelle: OpenAI

Das folgende Video mit der Bezeichnung “Tokyo Walk” zeigt eine Frau auf einer Straße in Tokyo schlendern und das eine ganze Minute lang, ohne dass irgendetwas Seltsames (Fehler) in dem Video, wie eine abrupte Bewegung oder Verzerrung eintritt. Dieser Vorgang ist komplett flüssig und sieht schon recht lässig aus. Solch einen “Text-2-Video-Output” in dieser Länge und Qualität wurde von Top-Tools wie Pika und Runway so noch nicht präsentiert. Aber hierbei muss auch immer darauf hingewiesen werden, dass wir auf die Aussagen von OpenAI vertrauen müssen, dass dieses Video auch wirklich mit genau diesem Prompt über Sora generiert wurde.

Prompt (laut OpenAI)

“Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”

Nutzung synthetischer Daten, um Copyright nicht zu verletzen?

Es scheint so auszusehen, als ob OpenAI für das Training des Sprachmodell Sora keine real existierenden Videos und Texte als Datengrundlage verwendet hat, sondern seine Video-KI mit synthetischen Daten gefüttert hat, um auch möglichen Rechtsstreitigkeiten direkt im Vorfeld aus dem Wege zu gehen. Sieht so dann ein Copyright-konformes Training von Langtage Models in Zukunft aus? Gut vorstellbar.

OpenAI äußert sich nicht zu den verwendeten Trainingsdaten. Die bisher von OpenAI gezeigten Szenen enthalten jedoch visuelle Hinweise darauf, dass OpenAI anstelle von oder zusätzlich zu realen Aufnahmen sehr hochwertige synthetische Trainingsdaten verwendet, fotorealistische Szenen, die mit einer Game Engine generiert wurden. Quelle: THE DECODER

Weitere KI-Videos im Überblick

Auf der “Sora-Webseite” von OpenAI könnt Ihr Euch noch weitere Videos anschauen und diese herunterladen. Sie sind in unterschiedlichen Längen & Themen verfügbar.

Quelle: OpenAI

Prompt:

The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.