AI（人工知能）ニュース

アリババが革新的AIビデオ編集モデル「Wan 2.1-VACE」をオープンソース化 – 単一モデルで生成から高度編集まで実現

Published

1年 ago

2025年5月16日

TaTsu

アリババは2025年5月14日、ビデオ生成と編集のための最新のオープンソースモデル「Wan 2.1-VACE」（Video All-in-one Creation and Editing）を正式に発表しました。このモデルは、複数のビデオ処理機能を単一のモデルに統合し、ビデオ制作プロセスを効率化することを目的としています。

Wan 2.1-VACEは、アリババの通義万相（Tongyi Wanxiang）が開発した「Wan 2.1シリーズ」の一部であり、業界初の様々なビデオ生成・編集タスクに対する統一ソリューションを提供するオープンソースモデルです。

このモデルの主な特徴は以下の通りです

テキスト、画像、ビデオなどのマルチモーダル入力によるビデオ生成をサポート
画像やフレームの参照、ビデオの再描画、ビデオの特定領域の修正、時空間拡張などの包括的な編集機能
画像サンプルに基づいて特定の相互作用する被写体を含むビデオの生成
静止画像に自然な動きの効果を追加する機能
ポーズ転送、モーション制御、深度制御、再着色などの高度なビデオ再描画機能
周囲に影響を与えることなく、ビデオの特定の領域を追加、修正、削除する機能
ビデオの境界を拡張し、コンテンツをインテリジェントに埋め込む機能

技術的には、「Video Condition Unit (VCU)」という統一インターフェースを採用し、テキスト、画像、ビデオ、マスクなどのマルチモーダル入力の統一処理をサポートしています。また、「Context Adapter」構造を採用し、時間的および空間的次元の形式化された表現を使用して様々なタスクの概念を注入しています。

アリババは、140億パラメータと13億パラメータの2つのバージョンでWan 2.1-VACEモデルをオープンソース化しています。13億パラメータ版は480P解像度をサポートし、140億パラメータ版は480Pと720Pの両方の解像度をサポートしています。これらのモデルはHugging Face、GitHub、およびアリババクラウドのオープンソースコミュニティであるModelScopeから無料でダウンロード可能です。

13億パラメータ版は一般消費者向けGPUでもスムーズに動作するよう特別に設計されており、わずか8.19GBのVRAMで動作可能なため、一般ユーザーでも高度なビデオ編集機能を体験できます。

アリババは2025年2月に4つのWan 2.1モデルをオープンソース化し、先月には開始フレームと終了フレームでビデオ作成をサポートするビデオ生成モデルをオープンソース化しました。現在までに、これらのモデルはHugging FaceとModelScopeで330万以上のダウンロード数を記録しています。

References:
Alibaba Wan2.1-VACE: Open-source AI video tool for all

【編集部解説】

アリババが発表した「Wan 2.1-VACE」は、AIによるビデオ生成・編集技術の新たな転換点と言えるでしょう。この技術の革新性は、単に高品質なビデオを生成できるという点だけでなく、複数の異なるビデオ処理タスクを単一のモデルに統合した「オールインワン」アプローチにあります。

従来のAIビデオ生成ツールでは、テキストからビデオを生成する機能、画像からビデオを生成する機能、ビデオ編集機能などが別々のモデルやツールとして提供されることが一般的でした。しかし、Wan 2.1-VACEはこれらの機能を統合することで、クリエイターのワークフローを大幅に効率化し、より複雑で創造的な表現を可能にしています。

特に注目すべき点は、このモデルが採用している「Video Condition Unit (VCU)」という技術です。VCUは、テキスト、画像、ビデオ、マスクなど異なる種類の入力を統一的に処理するための仕組みで、これによって様々な入力形式を一貫した方法で扱うことができます。また、「Context Adapter」構造により、時間的・空間的次元を考慮した高度なビデオ合成が可能になっています。

Wan 2.1シリーズの基盤となる技術は、アリババが開発した「Wan-VAE」と呼ばれる3D因果的変分オートエンコーダーです。この技術は空間的・時間的圧縮を改善し、メモリ使用量を削減しながら時間的因果関係を確保するために設計されています。これにより、無制限の長さの1080P動画をエンコード・デコードすることが可能になり、ビデオ生成タスクに特に適しています。

また、Wan 2.1シリーズはVBenchと呼ばれるビデオ生成モデルの総合的なベンチマークスイートで86.22%というトップスコアを獲得しており、OpenAIのSora（84.28%）やLuma（83.61%）などの競合モデルを性能面で上回っています。特に複雑な動きや物理シミュレーション、マルチオブジェクトインタラクションの処理に優れていることが評価されています。

アリババがこのような高度なAIモデルをオープンソース化した意義も大きいでしょう。AIモデルのオープンソース化は、技術の民主化と革新の加速に貢献します。特に計算リソースと大量のトレーニングデータを必要とするビデオ生成モデルがオープンソース化されることで、中小企業や個人クリエイターも高品質なビデオコンテンツを制作できるようになり、コンテンツ制作の裾野が広がることが期待されます。

Wan 2.1-VACEは140億パラメータと13億パラメータの2つのバージョンで提供されていますが、13億パラメータ版はわずか8.19GBのVRAMで動作するよう設計されており、12GBのVRAMを搭載した4070クラスのグラフィックカードでもスムーズに動作します。これにより、高価な専用ハードウェアを持たない一般ユーザーでも、高度なAIビデオ編集機能を体験できるようになっています。

この技術がもたらす可能性は非常に広範囲に及びます。ソーシャルメディア向けの短尺動画制作、広告・マーケティングコンテンツの作成、映画やテレビのポストプロダクション、教育・トレーニング用ビデオの生成など、様々な分野での応用が考えられます。

一方で、このような技術の普及には潜在的なリスクも存在します。高品質な偽動画（ディープフェイク）の作成が容易になることで、誤情報の拡散や著作権侵害、プライバシー侵害などの問題が懸念されます。また、AIによる自動生成コンテンツの増加は、クリエイティブ産業の雇用に影響を与える可能性もあります。

長期的な視点では、Wan 2.1-VACEのようなオープンソースAIモデルの登場は、ビデオコンテンツ制作の民主化を加速させ、新たな表現方法や創造的なアプローチを生み出す可能性を秘めています。また、このような技術の発展は、人間のクリエイターの役割を変化させ、より高度な創造性や企画力が求められるようになるかもしれません。

【用語解説】

Wan 2.1-VACE (Video All-in-one Creation and Editing):
アリババが開発したビデオ生成と編集のためのオールインワンAIモデル。テキスト、画像、ビデオなどの入力から高品質なビデオを生成し、編集する機能を単一のモデルに統合している。

通義万相（Tongyi Wanxiang）:
アリババのAI画像・ビデオ生成プラットフォームの名称。Wan 2.1シリーズを開発したチーム。

Video Condition Unit (VCU):
Wan 2.1-VACEに採用されている技術で、テキスト、画像、ビデオ、マスクなど異なる種類の入力を統一的に処理するためのインターフェース。これにより、様々な入力形式を一貫した方法で扱うことができる。

Context Adapter:
時間的および空間的次元の形式化された表現を使用して、様々なタスクの概念を注入する構造。ビデオ内の時間と空間の関係を理解し、自然な動きや変化を生成するために重要な役割を果たす。

パラメータ:
AIモデルの複雑さと能力を表す数値。パラメータ数が多いほど、モデルはより複雑なタスクを処理できるが、より多くの計算リソースを必要とする。

Wan-VAE:
Wan 2.1の基盤となる3D因果的変分オートエンコーダー。空間的・時間的圧縮を改善し、メモリ使用量を削減しながら時間的因果関係を確保するために設計されている。

VBench:
ビデオ生成モデルの総合的なベンチマークスイート。様々なビデオ生成モデルの性能を評価するための標準化されたテスト環境。

DIT（Denoising Diffusion Transformer）:
拡散モデルの一種で、Transformerアーキテクチャを採用した画像・ビデオ生成モデル。Wan 2.1シリーズはこのアーキテクチャを採用している。

【参考リンク】

アリババクラウド（Alibaba Cloud）（外部）
アリババグループのクラウドコンピューティングサービス。Wan 2.1-VACEなどのAIモデルを提供している。

ModelScope（外部）
アリババクラウドが運営するAIモデルのオープンソースコミュニティ。Wan 2.1-VACEをダウンロードできる。

Hugging Face（外部）
AIモデルの共有プラットフォーム。Wan 2.1-VACEモデルもここで公開されている。

通義万相（Tongyi Wanxiang）（外部）
アリババのAI画像・ビデオ生成プラットフォーム。Wan 2.1シリーズのモデルを体験できる。

Wan-AI GitHub（外部）
Wan 2.1のソースコードが公開されているGitHubリポジトリ。

【参考動画】

【編集部後記】

AIによるビデオ生成技術は、この1年で驚異的な進化を遂げています。OpenAIのSoraが話題を集めましたが、アリババのWan2.1-VACEのようなオープンソースモデルの登場により、高品質なAIビデオ生成技術が誰でも利用できる時代が到来しつつあります。皆さんの業務や創作活動で、どのようなビデオ制作の課題に直面していますか？静止画からの動画生成や、既存ビデオの特定部分だけの編集など、これまで専門知識が必要だった作業が、AIによってどれだけ身近になるか想像してみてください。VBenchでSoraやLumaを上回る性能を持つWan2.1シリーズの最新モデルが、皆さんのクリエイティブな表現にどのような可能性をもたらすのか、ぜひ考えてみてください。

【関連記事】

AI（人工知能)ニュースをinnovaTopiaでもっと読む