AI(人工知能)ニュース

Alibaba研究所、写真から話す動画を生成するAI「EMO」開発!

Alibabaの研究所が開発した人工知能「EMO」は、肖像写真からリアルな話し声や歌声の動画を生成。このAI技術は、音声に合わせた自然な表情を実現し、ビデオ品質と表現力で既存技術を上回る。しかし、無断模倣や誤情報拡散の懸念も。【用語解説とAIによる専門的コメントつき】

Published

on

Alibabaの知能計算研究所の研究者たちは、「EMO」と呼ばれる新しい人工知能システムを開発した。このシステムは、一枚の肖像写真からその人が話したり歌ったりするリアルな動画を生成できる。EMOは、提供された音声トラックのニュアンスに密接に合致する流動的で表現豊かな顔の動きと頭のポーズを作り出すことができる。これは、音声駆動のトーキングヘッドビデオ生成の分野での大きな進歩である。

EMOシステムは、リアルな合成画像を生成する能力が非常に高いとされる拡散モデルというAI技術を使用している。研究者たちは、スピーチ、映画、テレビ番組、歌唱パフォーマンスからキュレートされた250時間以上のトーキングヘッドビデオのデータセットでモデルを訓練した。EMOは、3D顔モデルやブレンドシェイプを使用する従来の方法に頼らず、音声波形を直接ビデオフレームに変換する。これにより、自然な話し言葉に関連する微妙な動きや個性的な特徴を捉えることができる。

論文で述べられた実験によると、EMOはビデオ品質、アイデンティティの保存、表現力の測定基準において、既存の最先端の方法を大幅に上回る。また、EMOによって生成されたビデオは、他のシステムによって生成されたものよりも自然で感情的であるとするユーザースタディも実施された。

さらに、EMOは会話ビデオだけでなく、適切な口の形とボーカルに同期した表情豊かな顔の表現を備えた歌唱ポートレートもアニメーション化できる。このシステムは、入力音声の長さに基づいて任意の期間のビデオを生成することができる。しかし、この技術が人々を無断で模倣したり、誤情報を広めるために悪用される可能性に関する倫理的な懸念が残る。研究者たちは、合成ビデオを検出する方法を探求する計画である。

【ニュース解説】

Alibabaの知能計算研究所が開発した「EMO」という新しい人工知能システムは、一枚の肖像写真からその人が話したり歌ったりするリアルな動画を生成することができます。この技術は、音声に合わせて流動的で表現豊かな顔の動きや頭のポーズを作り出すことが可能で、これまでの音声駆動のトーキングヘッドビデオ生成の分野において大きな進歩を遂げています。

EMOシステムは、拡散モデルというAI技術を用いており、これはリアルな合成画像を生成する能力が非常に高いとされています。このモデルは、スピーチ、映画、テレビ番組、歌唱パフォーマンスなどから集められた250時間以上のトーキングヘッドビデオのデータセットで訓練されました。従来の3D顔モデルやブレンドシェイプを使用する方法とは異なり、EMOは音声波形を直接ビデオフレームに変換することで、自然な話し言葉に関連する微妙な動きや個性的な特徴を捉えることができます。

実験結果によると、EMOはビデオ品質、アイデンティティの保存、表現力の面で既存の最先端技術を大幅に上回っています。また、EMOによって生成されたビデオは、他のシステムよりも自然で感情的であると評価されています。

この技術は、会話ビデオだけでなく、歌唱ビデオの生成にも応用可能で、適切な口の形とボーカルに同期した表情豊かな顔の表現を実現します。入力音声の長さに基づいて任意の期間のビデオを生成することができるため、様々な用途での活用が期待されます。

しかし、このような技術が人々を無断で模倣したり、誤情報を広めるために悪用される可能性については、倫理的な懸念が残ります。研究者たちは、合成ビデオを検出する方法を探求する計画であり、この技術の安全な使用とその潜在的なリスクの管理に向けた取り組みが重要になってきます。

将来的には、この技術によってパーソナライズされたビデオコンテンツの生成が容易になる一方で、ディープフェイクなどの誤情報の拡散に対する警戒も必要です。また、この技術の発展は、エンターテイメント業界や教育、コミュニケーションの分野で新たな可能性を開くことになるでしょう。同時に、個人のプライバシーや著作権などの法的・倫理的問題に対する規制やガイドラインの整備も求められます。

from Alibaba’s new AI system ‘EMO’ creates realistic talking and singing videos from photos.

Trending

モバイルバージョンを終了