アリババは2025年5月14日、ビデオ生成と編集のための最新のオープンソースモデル「Wan 2.1-VACE」(Video All-in-one Creation and Editing)を正式に発表しました。このモデルは、複数のビデオ処理機能を単一のモデルに統合し、ビデオ制作プロセスを効率化することを目的としています。
Wan 2.1-VACEは、アリババの通義万相(Tongyi Wanxiang)が開発した「Wan 2.1シリーズ」の一部であり、業界初の様々なビデオ生成・編集タスクに対する統一ソリューションを提供するオープンソースモデルです。
このモデルの主な特徴は以下の通りです
テキスト、画像、ビデオなどのマルチモーダル入力によるビデオ生成をサポート
画像やフレームの参照、ビデオの再描画、ビデオの特定領域の修正、時空間拡張などの包括的な編集機能
画像サンプルに基づいて特定の相互作用する被写体を含むビデオの生成
静止画像に自然な動きの効果を追加する機能
ポーズ転送、モーション制御、深度制御、再着色などの高度なビデオ再描画機能
周囲に影響を与えることなく、ビデオの特定の領域を追加、修正、削除する機能
ビデオの境界を拡張し、コンテンツをインテリジェントに埋め込む機能
技術的には、「Video Condition Unit (VCU)」という統一インターフェースを採用し、テキスト、画像、ビデオ、マスクなどのマルチモーダル入力の統一処理をサポートしています。また、「Context Adapter」構造を採用し、時間的および空間的次元の形式化された表現を使用して様々なタスクの概念を注入しています。
特に注目すべき点は、このモデルが採用している「Video Condition Unit (VCU)」という技術です。VCUは、テキスト、画像、ビデオ、マスクなど異なる種類の入力を統一的に処理するための仕組みで、これによって様々な入力形式を一貫した方法で扱うことができます。また、「Context Adapter」構造により、時間的・空間的次元を考慮した高度なビデオ合成が可能になっています。
Wan 2.1シリーズの基盤となる技術は、アリババが開発した「Wan-VAE」と呼ばれる3D因果的変分オートエンコーダーです。この技術は空間的・時間的圧縮を改善し、メモリ使用量を削減しながら時間的因果関係を確保するために設計されています。これにより、無制限の長さの1080P動画をエンコード・デコードすることが可能になり、ビデオ生成タスクに特に適しています。
Wan 2.1-VACEは140億パラメータと13億パラメータの2つのバージョンで提供されていますが、13億パラメータ版はわずか8.19GBのVRAMで動作するよう設計されており、12GBのVRAMを搭載した4070クラスのグラフィックカードでもスムーズに動作します。これにより、高価な専用ハードウェアを持たない一般ユーザーでも、高度なAIビデオ編集機能を体験できるようになっています。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。