OpenAIは、人間の声を再現できる新しいテキストから音声へのAIモデル「Voice Engine」を発表しました。この技術は、わずか15秒の録音された音声サンプルを基に、合成音声を作成することができます。しかし、OpenAIはこの技術の広範なリリースはリスクが高いとして、現時点では公開を控えることを決定しました。
Voice Engineによって、一度声をクローンした後、ユーザーはテキストを入力してAI生成の声を得ることができます。この技術は、読書支援、コンテンツのグローバルリーチ、非言語個人のためのパーソナライズされた音声オプションの提供、および発話障害後の自己の声の回復支援など、多くの利点を提供します。
しかし、15秒の録音から誰かの声をクローンできるということは、悪用の可能性もはらんでいます。電話詐欺や選挙キャンペーンのロボコールなど、既に社会に問題を引き起こしています。また、銀行口座への不正アクセスなどのセキュリティ問題も指摘されています。
OpenAIは、この技術が広くリリースされることによる問題を回避するため、一連のルールを設けています。例えば、HeyGenなどのパートナー企業とのテストでは、他人や組織のなりすましを禁止し、クローンされる声の人々からの明示的な同意を得ること、生成された声がAIによるものであることを明確に開示することが求められます。また、生成されたすべての声のサンプルには、その起源を追跡するのに役立つウォーターマークが埋め込まれます。
OpenAIは、この技術の広範なリリースに慎重なアプローチを取り、合成音声の責任ある展開と社会がこれらの新しい能力にどのように適応できるかについての対話を開始することを望んでいます。また、銀行口座の声に基づく認証の段階的廃止、AIコンテンツの欺瞞の可能性を理解するための公衆教育、オーディオコンテンツの起源を追跡する技術の加速開発など、社会がこの技術に適応するための推奨事項を提供しています。
この技術は2022年後半に開発され、ChatGPTアプリの会話モードやOpenAIのテキストから音声へのAPIなど、既にいくつかの形で使用されています。しかし、OpenAIはこのVoice Engineを特定のパートナーに限定してリリースすることを選択しています。
【ニュース解説】
OpenAIが開発した「Voice Engine」という新しいテキストから音声へのAIモデルは、わずか15秒の録音された音声サンプルを基に、その人の声を再現する合成音声を作成することが可能です。この技術は、読書支援やコンテンツのグローバルリーチ拡大、非言語個人のためのパーソナライズされた音声オプションの提供、発話障害を持つ人々の声の回復支援など、多岐にわたる利点を提供します。
しかし、この技術には悪用のリスクも伴います。たった15秒の音声サンプルから誰かの声をクローンできるため、電話詐欺や選挙キャンペーンのロボコール、さらには銀行口座への不正アクセスなど、既に社会に問題を引き起こしている事例があります。
このような背景を踏まえ、OpenAIはVoice Engineの広範なリリースを控え、特定のパートナー企業との間でのみテストを行っています。これらのパートナーは、他人や組織のなりすましを禁止し、クローンされる声の人々からの明示的な同意を得ること、生成された声がAIによるものであることを明確に開示することが求められます。また、生成された声のサンプルには、その起源を追跡するのに役立つウォーターマークが埋め込まれています。
OpenAIは、合成音声の責任ある展開と、社会がこれらの新しい能力にどのように適応できるかについての対話を開始することを目指しています。このために、銀行口座の声に基づく認証の段階的廃止、AIコンテンツの欺瞞の可能性を理解するための公衆教育、オーディオコンテンツの起源を追跡する技術の加速開発など、社会がこの技術に適応するための推奨事項を提供しています。
この技術の開発と慎重なリリース戦略は、AIの進化がもたらす利点とリスクのバランスを取る上での重要な一歩を示しています。将来的には、より安全な形でこの技術が一般に公開され、そのポテンシャルを最大限に活用できるようになることが期待されます。同時に、社会全体がこのような技術の進歩に適応し、悪用を防ぐための対策を講じる必要があります。
from OpenAI Can Re-Create Human Voices—but Won’t Release the Tech Yet.