Netflix発、映像から物体を”なかったこと”にするAI「VOID」——物理法則ごと書き換える新技術

Netflixは2026年4月3日、動画からオブジェクトを削除するAIモデル「VOID」（Video Object and Interaction Deletion）を発表した。

VOIDはVLM（ビジョン言語モデル）であり、オブジェクトの削除だけでなく、削除後に残ったオブジェクトが物理的に整合した挙動を示す映像を自動生成する。開発者はサマン・モタメド（Netflix／ソフィア大学）、ウィリアム・ハーヴェイ、ベンジャミン・クライン、ジュオニン・ユアン、ター・イン・チェン（いずれもNetflix）、ルック・ファン・ゴール（ソフィア大学）の6名。論文はarXivにプレプリントとして公開されており、モデルはHugging Faceで一般公開されている。25人を対象とした比較評価では、VOIDは64.8%のケースで選ばれ、次点のRunwayの18.4%を大きく上回った。比較対象にはRunway、Generative Omnimatte、DiffuEraser、ROSE、MiniMax-Remover、ProPainterが含まれる。

From: Netflix – yes Netflix – jumps on the AI bandwagon with video editor

【編集部解説】

VOIDが既存の映像編集ツールと一線を画す理由は、「物理法則の理解」にあります。従来のオブジェクト除去ツールは、削除した部分の「穴埋め」——影や反射の修正といった見た目レベルの補正——に優れていました。しかしVOIDが解くのは、より根本的な問いです。「そのオブジェクトが最初から存在しなかったとしたら、世界はどう見えていたか」。この差異が、映像制作の現場で何を意味するか、考えてみてください。

技術的な核心を整理しましょう。VOIDはNetflixが独自に一から構築したモデルではありません。その基盤はAlibaba（アリババ）が開発したビデオ拡散モデル「CogVideoX」であり、Googleの「Gemini」がシーン内の影響範囲を分析し、Metaの「SAM2」が削除対象のオブジェクトをセグメント化します。Netflixの貢献は、これら既存の強力なコンポーネントを組み合わせ、物理的インタラクションを考慮した独自の訓練データと「クアッドマスク」という4値マスク技術で精緻にファインチューニングした点にあります。The Registerの記事がVOIDを「VLM（ビジョン言語モデル）」と表現していますが、正確にはVLMはパイプラインの一部（シーン解析を担うGemini）であり、中心はビデオ拡散モデルです。

訓練データの生成方法も注目に値します。NetflixとブルガリアのソフィアにあるINSAIT（Institute for Computer Science, Artificial Intelligence and Technology）のチームは、BlenderとHUMOTO（人間と物体のインタラクションを物理シミュレーションで再現したデータセット）、そしてGoogleのKubricを用いて、「オブジェクトを取り除いた反事実的な映像ペア」を人工的に生成しています。実写データだけでは「除去前後の正解映像」を作れないため、シミュレーション環境で訓練データを自前で製造するというアプローチは、今後の映像系AIの訓練戦略として示唆に富みます。

ポジティブな活用可能性は広範にわたります。映画・ドラマの撮影後編集コストの大幅な削減はもちろん、撮影現場に混入した不要な物体（電線、看板、撮影クルーの影など）の自動除去、スポーツ中継やドキュメンタリーの映像修正、さらにはリハビリ医療や教育分野における「特定の刺激を除いた映像素材」の生成など、エンターテインメントを超えた応用が見込まれます。

一方で、リスクの輪郭も明確です。物理的に整合した映像改ざんが容易になることは、フェイク動画の「説得力」を飛躍的に高めます。従来のディープフェイクは不自然な挙動や物理的な矛盾で検出されることが多かったのに対し、VOIDのような技術が悪用されれば、法廷証拠や報道映像への信頼を根底から揺るがしかねません。また、今回のモデルはApache 2.0ライセンスで商用利用を含む一般公開がなされており、利用の裾野は一気に広がります。

加えて、25人という評価サンプル数は統計的にかなり小規模です。論文はまだプレプリント段階（査読未通過）であり、独立した第三者機関による再現性の検証はこれからです。「業界最高性能」という主張は、あくまで著者らによる自己評価として受け取る必要があります。

規制の観点からは、EU AI法（EU AI Act）が映像操作技術に対する透明性義務をすでに射程に入れており、生成・改ざんされた映像へのウォーターマーク付与が求められる方向性にあります。VOIDはその議論を加速させる可能性が高く、日本でも映像の真正性を担保するための制度設計が問われることになるでしょう。

長期的な視点で見れば、VOIDは「映像は現実の記録である」という前提を揺さぶる技術のひとつです。撮影済みの映像を事後的に書き換えられる能力が一般化するとき、映像コンテンツの制作コストは下がり、表現の自由度は増す一方、映像という媒体の証拠能力・証言能力は問い直しを迫られます。Netflixがこのモデルをオープンソースとして公開した判断は、研究の加速と社会実装の両面を見据えた戦略とも読めますが、そのリスク管理の在り方は、業界全体が注視すべき問いを残しています。

【用語解説】

VLM（ビジョン言語モデル）
テキストと画像・動画の両方を理解・処理できるAIモデルの総称だ。VOIDのパイプラインでは、GeminiがVLMとして映像内の「削除による影響範囲」を特定する役割を担う。

ビデオ拡散モデル
ランダムなノイズから映像を段階的に生成するAIモデルの一種だ。VOIDの中核にはAlibaba製の「CogVideoX」が用いられており、生成の方向性をクアッドマスクによって制御している。

インペインティング
画像や映像の一部を自然な形で補完・再生成する技術だ。従来は見た目レベルの修正にとどまっていたが、VOIDは物理的な因果関係まで考慮した補完を実現している。

クアッドマスク
VOIDが独自に採用する4値マスク技術だ。映像の各領域を「削除対象」「重複領域」「影響を受ける領域」「保持領域」の4段階で識別し、拡散モデルの生成範囲と挙動を細かく誘導する。

Apache 2.0ライセンス
オープンソースソフトウェアの代表的なライセンスのひとつだ。商用利用・改変・再配布が可能で、著作権表示と免責事項の明記が条件となる。VOIDはこのライセンスで公開されており、企業・個人を問わず幅広い利用が可能だ。

EU AI法（EU AI Act）
欧州連合が策定したAI規制法だ。AIシステムのリスクレベルに応じた義務を定めており、映像操作技術には透明性の確保やウォーターマーク付与が求められる方向で議論が進んでいる。

Kubric
Googleが開発したオープンソースのデータ生成パイプラインだ。物理エンジンを用いて3Dシーンの合成映像を生成でき、VOIDの訓練データの一部はこれを用いて作成された。

HUMOTO
人間と物体のインタラクションをBlenderの物理シミュレーションで再現した3Dデータセットだ。Kubricと並んでVOIDの訓練データ生成に使用されており、人が物体に触れたり持ち上げたりする場面の因果関係を学習させるために活用された。

【参考リンク】

VOID 公式デモサイト（外部）
VOIDのデモ動画・比較スライダー・論文情報をまとめた公式プロジェクトページ。実際の動作結果を視覚的に確認できる。

VOID — GitHub（Netflix公式リポジトリ）（外部）
ソースコード・訓練・推論手順・クアッドマスク生成パイプラインが公開されている。Apache 2.0ライセンスで商用利用も可能だ。

VOID — Hugging Face（モデル公開ページ）（外部）
モデルウェイトとデモアプリが公開されている。動作にはVRAM 40GB以上のGPU（例：A100）が必要だ。

VOID 論文（arXiv プレプリント）（外部）
著者6名による技術論文。手法・訓練データ・評価実験の結果が記載されている。査読前のプレプリントである点に留意が必要だ。

Runway（外部）
映像生成・編集に特化したAIプラットフォーム。今回の比較評価でVOIDに次ぐ2位（18.4%）を記録した商用ツールだ。

Hugging Face（外部）
AIモデル・データセットの共有プラットフォーム。VOIDを含む多数のオープンソースモデルが公開されており、研究・開発の中心的なハブとなっている。

ProPainter（外部）
動画インペインティングの先行オープンソースモデル。物理的インタラクションの再現においてVOIDとの差異が生じた比較対象だ。

DiffuEraser（外部）
拡散モデルを用いた動画オブジェクト除去ツール。VOIDとの比較評価の対象のひとつとして論文に登場する。

Generative Omnimatte（外部）
映像内の前景オブジェクトとその影・反射などを同時に処理するオープンソースの映像編集手法だ。VOIDとの比較対象のひとつ。

MiniMax-Remover（外部）
動画からオブジェクトを除去するAIツール。VOIDとの比較評価の対象のひとつとして論文に登場する。

【参考記事】

Netflix open-sources VOID, an AI framework that erases video objects and rewrites the physics they left behind（外部）
VOIDの技術スタックを詳報。CogVideoX・Gemini・SAM2の役割とINSAIT Sofia Universityとの共同研究について明記されている。

Netflix AI Team Just Open-Sourced VOID: an AI Model That Erases Objects From Videos — Physics and All（外部）
「ギターを持つ人物を削除するとギターが落下する」という具体例で物理的因果関係のモデル化を平易に解説している。

Netflix Releases VOID Video Inpainting Model（外部）
比較評価（VOID：64.8%、Runway：18.4%、サンプル数25人）と論文がプレプリント段階である旨を簡潔にまとめている。

【編集部後記】

「映像は現実の記録である」という前提が、静かに揺らぎはじめています。VOIDのような技術が当たり前になったとき、私たちは映像をどう受け取るようになるのでしょうか。フェイクかどうか以前に、「見たものを信じる」という感覚そのものが変わっていくのかもしれません。みなさんはどう感じますか？身近な人と話してみると、また違う景色が見えてくるかもしれません。