WellSaid Labsは、AI音声のカスタマイズに新たな基準を設定する「HINTS」(Highly Intuitive Naturally Tailored Speech)という技術を発表しました。この技術により、コンテンツ制作者は、映画監督のように、テンポや音量の調整などの文脈注釈を加えることで、AI音声をより自然で細かく形成できるようになります。WellSaid Labsの共同創設者兼CTOであるMichael Petrochukは、従来のAI音声の制御方法と比較して、HINTSは細かく、補間可能な調整を可能にし、AI音声が自然に反応すると述べています。例えば、特定のパッセージを正確に0.7倍遅くしたり、5 dB大きくしたりすることができます。
この技術は、実際の(合意に基づく)人間のデータを使用して最終的な音声出力を生成するため、注釈付きの発話も注釈なしの出力と同じくらい「リアル」です。さらに、この研究では、モデルが単一のデータセットを効果的にモデル化できるだけでなく、複数の話者からのパフォーマンスを使用して抑揚の使用を知らせることができることが発見されました。HINTSは、オーディオブック、トレーニングナレーション、マーケティングビデオなど、音声ベースのコンテンツに対する創造的な可能性を広げる新しいアーキテクチャを提供します。初期評価では、精度と自然さが向上しています。
また、WellSaidは、音声提供者からの明示的な同意を得て、プライバシーを保護し、誤用や欺瞞を防ぐためのコンテンツのモデレーションを行うことで、責任ある倫理的なAI実践を強調しています。HINTSは、技術が単なる音声マシンではなく、共感的なストーリーテリング媒体となる可能性を示しています。人間の才能との作業と比較した場合の制限は残りますが、HINTSのようなツールは、真に表現力豊かな合成音声に一歩近づくものです。
【ニュース解説】
WellSaid Labsが開発した「HINTS」(Highly Intuitive Naturally Tailored Speech)は、AI音声のカスタマイズにおいて新たな基準を設定する技術です。この技術により、コンテンツ制作者は、映画監督が俳優に指示を出すように、テンポや音量の調整などの文脈注釈を加えることで、AI音声をより自然で細かく形成できるようになります。
HINTSの導入により、AI音声の制御が従来の方法から大きく進化します。従来のAI音声は、マークアップ言語やプロンプトを用いた比較的硬直的な制御が主でしたが、HINTSでは、より細かく、自然な反応が可能な補間可能な調整が実現されます。例えば、特定のパッセージを0.7倍の速度で遅くしたり、5dB増幅させたりすることができ、AI音声はこれらの指示に自然に応じます。
この技術の特徴は、実際の人間のデータを基にしている点にあります。合意に基づいて収集された人間の声のデータを使用しているため、注釈付きの発話も注釈なしの発話と同じくらいリアルな音声を生成することができます。さらに、複数の話者のパフォーマンスデータを組み合わせることで、より幅広い抑揚や表現のバリエーションをAI音声に反映させることが可能になります。
HINTSの導入は、オーディオブック、トレーニングナレーション、マーケティングビデオなど、様々な分野での音声ベースのコンテンツ制作に新たな可能性をもたらします。より自然で表現力豊かなAI音声によって、聞き手の体験が向上し、コンテンツの魅力が増すことが期待されます。
また、WellSaid Labsは、音声データの収集と使用において、倫理的な観点からの取り組みを強調しています。音声提供者からの明示的な同意のもとにデータを収集し、プライバシー保護やコンテンツの誤用防止に努めています。これにより、AI音声技術の発展が倫理的な枠組みの中で進むことが保証されます。
HINTSの開発は、AI音声技術が単なる機械的なツールではなく、人間の感情や意図を伝える共感的なストーリーテリング媒体へと進化する可能性を示しています。現段階では人間の声優に比べると限界もありますが、このような技術の進化により、将来的にはよりリアルで感情豊かなAI音声が実現されることでしょう。
from WellSaid Labs unveils ‘HINTS’, setting new bar for AI voice customization.