Netflix ist nicht nur Streaming-Gigant, sondern offenbar auch ernstzunehmender KI-Forscher. Das Unternehmen hat mit VOID (Video Object and Interaction Deletion) ein neues Open-Source-Modell vorgestellt, das Objekte aus Videoszenen entfernen und die verbleibende Szene physikalisch korrekt rekonstruieren kann.
Was VOID kann
Im Gegensatz zu einfachen Inpainting-Tools geht VOID einen entscheidenden Schritt weiter: Das Vision-Language-Modell versteht nicht nur, wo ein Objekt war, sondern auch, wie sich die restliche Szene ohne das Objekt verhalten würde. Ein Beispiel: Wird ein Auto aus einer Kollisionsszene entfernt, generiert VOID ein Video, in dem das verbleibende Fahrzeug physikalisch plausibel weiterfährt – ohne Trümmer, Rauch oder Flammen.
Ein weiteres Szenario: Eine Person springt in einen Pool und erzeugt Spritzer. Wird die Person entfernt, zeigt VOID einen ungestörten Pool – ohne Wellen, ohne Spritzer am Rand.
Entwickelt von Netflix Research
Hinter dem Projekt stehen Forscher von Netflix und der Sofia University: Saman Motamed, William Harvey, Benjamin Klein, Luc Van Gool, Zhuoning Yuan und Ta-Ying Cheng. Das zugehörige Paper ist als Preprint auf arXiv verfügbar.
Open Source auf Hugging Face
Netflix hat VOID als Open-Source-Modell auf Hugging Face veröffentlicht. Damit steht es nicht nur internen Produktionen zur Verfügung, sondern jedem.
Deutlich besser als die Konkurrenz
In einer Nutzerstudie mit 25 Teilnehmern wurde VOID in 64,8 Prozent der Fälle bevorzugt – weit vor Runway (18,4 Prozent) und anderen Tools wie Generative Omnimatte, DiffuEraser und ProPainter.
- VOID: 64,8 % Präferenz
- Runway: 18,4 % Präferenz
- Andere Tools: unter 10 %
Implikationen
Die Technologie hat offensichtliches Potenzial für Film- und Videoproduktion – aber wirft gleichzeitig Fragen zur Videomanipulation auf. Je überzeugender KI-gestützte Videobearbeitung wird, desto schwieriger wird es, authentisches von manipuliertem Material zu unterscheiden.
Quellen: The Register, VOID Projektseite, arXiv Paper