Netflix veröffentlicht VOID: KI-Modell entfernt Objekte aus Videos und simuliert physikalisch korrekte Szenen

Netflix ist nicht nur Streaming-Gigant, sondern offenbar auch ernstzunehmender KI-Forscher. Das Unternehmen hat mit VOID (Video Object and Interaction Deletion) ein neues Open-Source-Modell vorgestellt, das Objekte aus Videoszenen entfernen und die verbleibende Szene physikalisch korrekt rekonstruieren kann.

Was VOID kann

Im Gegensatz zu einfachen Inpainting-Tools geht VOID einen entscheidenden Schritt weiter: Das Vision-Language-Modell versteht nicht nur, wo ein Objekt war, sondern auch, wie sich die restliche Szene ohne das Objekt verhalten würde. Ein Beispiel: Wird ein Auto aus einer Kollisionsszene entfernt, generiert VOID ein Video, in dem das verbleibende Fahrzeug physikalisch plausibel weiterfährt – ohne Trümmer, Rauch oder Flammen.

Ein weiteres Szenario: Eine Person springt in einen Pool und erzeugt Spritzer. Wird die Person entfernt, zeigt VOID einen ungestörten Pool – ohne Wellen, ohne Spritzer am Rand.

Entwickelt von Netflix Research

Hinter dem Projekt stehen Forscher von Netflix und der Sofia University: Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan und Ta-Ying Cheng. Das zugehörige Paper ist als Preprint auf arXiv verfügbar.

Open Source auf Hugging Face

Netflix hat VOID als Open-Source-Modell auf Hugging Face veröffentlicht. Damit steht es nicht nur internen Produktionen zur Verfügung, sondern jedem.

Deutlich besser als die Konkurrenz

In einer Nutzerstudie mit 25 Teilnehmern wurde VOID in 64,8 Prozent der Fälle bevorzugt – weit vor Runway (18,4 Prozent) und anderen Tools wie Generative Omnimatte, DiffuEraser und ProPainter.

VOID: 64,8 % Präferenz
Runway: 18,4 % Präferenz
Andere Tools: unter 10 %

Implikationen

Die Technologie hat offensichtliches Potenzial für Film- und Videoproduktion – aber wirft gleichzeitig Fragen zur Videomanipulation auf. Je überzeugender KI-gestützte Videobearbeitung wird, desto schwieriger wird es, authentisches von manipuliertem Material zu unterscheiden.

Quellen: The Register, VOID Projektseite, arXiv Paper

Netflix veröffentlicht VOID: KI-Modell entfernt Objekte aus Videos und simuliert physikalisch korrekte Szenen

Was VOID kann

Entwickelt von Netflix Research

Open Source auf Hugging Face

Deutlich besser als die Konkurrenz

Implikationen

Kommentare

Weitere Artikel

Microsofts April-Patchday bringt 165 CVEs — SharePoint-Lücke wurde bereits vor dem Fix ausgenutzt

Google prüft mit Marvell zwei neue KI-Chips — der nächste Machtkampf verschiebt sich ins Custom-Silizium

Android 17 integriert ML-DSA: Post-Quanten-Kryptografie landet erstmals im mobilen Mainstream