MetaのFundamental AI Research(FAIR)チームは2025年11月10日、1,600以上の言語に対応する自動音声認識モデル群「Omnilingual ASR」を発表した。このシステムは、これまでAIで書き起こされたことのない500の低リソース言語を含む。音声エンコーダwav2vec 2.0を70億パラメータまでスケールアップし、コネクショニスト時系列分類(CTC)とトランスフォーマーデコーダの2つのデコーダバリアントを構築した。7B-LLM-ASRシステムは78%の言語で文字エラー率(CER)が10未満を達成した。数個の音声テキストサンプルだけで新しい言語への拡張が可能である。Omnilingual wav2vec 2.0、350の言語における書き起こし音声のOmnilingual ASRコーパス、言語探索デモも公開された。モデルは3億パラメータから70億パラメータまで提供され、Apache 2.0ライセンスとCC-BYライセンスの下でオープンソース化されている。fairseq2フレームワークに基づき、Mozilla FoundationのCommon VoiceやLanfrica/NaijaVoicesなどと協力して開発された。
From:
Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages
【編集部解説】
Omnilingual ASRが画期的なのは、単に対応言語数が多いという点だけではありません。従来の音声認識システムでは、新しい言語を追加するには専門家による大規模なファインチューニングが必要でした。しかしこのシステムは、わずか数個の音声とテキストのペアサンプルを提供するだけで、その言語の書き起こしが可能になります。
これを実現したのが、大規模言語モデル(LLM)から着想を得た「コンテキスト内学習」という手法です。70億パラメータまでスケールアップされたwav2vec 2.0エンコーダが、ラベルのない生の音声データから豊かな意味表現を学習し、それを2種類のデコーダ(CTC方式とトランスフォーマー方式)で文字に変換する仕組みになっています。
注目すべきは、公開データセットとコミュニティソースの音声録音を統合した、ASR用に組み立てられた中で最大級のトレーニングコーパスで訓練されたという規模感でしょう。しかも350の言語については、遠隔地や文書化が不十分な地域のネイティブスピーカーを募集し、報酬を支払って収集した音声を含んでいます。Mozilla FoundationのCommon VoiceやLanfrica/NaijaVoicesといった組織との協力により、言語学的な知識と文化的理解が組み込まれている点も重要です。
実用面では、3億パラメータの軽量版から70億パラメータの高精度版まで、用途に応じて選択できる柔軟性があります。低電力デバイスでも動作する設計は、スマートフォンやIoTデバイスへの展開を視野に入れたものと言えるでしょう。
Apache 2.0ライセンスとCC-BYライセンスでオープンソース化されたことで、世界中の研究者や開発者が自由に活用できます。これにより、地域固有の方言や少数言語に対応したサービスが、各コミュニティ主導で開発される道が開かれました。
一方で、78%の言語で文字エラー率10%未満という性能は、高リソース言語の商用システムと比較するとまだ改善の余地があります。また、音声認識技術の普及は、プライバシーやデータ主権といった課題も伴うため、各言語コミュニティとの継続的な対話が求められるでしょう。
【用語解説】
自動音声認識(ASR)
音声をテキストに自動変換する技術。Automatic Speech Recognitionの略称。スマートフォンの音声入力や議事録作成などに活用される。
wav2vec 2.0
Metaが開発した自己教師あり学習ベースの音声表現モデル。ラベルのない生の音声データから学習し、少量のラベル付きデータで高精度な音声認識を実現する。
コネクショニスト時系列分類(CTC)
音声認識で使われる学習手法。入力と出力の長さが異なる時系列データを扱える。Connectionist Temporal Classificationの略。
トランスフォーマー
注意機構(Attention)を用いたニューラルネットワークアーキテクチャ。大規模言語モデル(LLM)の基盤技術として広く使用されている。
文字エラー率(CER)
音声認識の精度を測る指標。Character Error Rateの略。認識された文字列と正解の文字列の差異を百分率で表す。数値が低いほど高精度。
コンテキスト内学習
モデルを再訓練せず、少数のサンプル例を与えるだけで新しいタスクを実行できる能力。In-context learningとも呼ばれる。
低リソース言語
デジタルデータや学習資料が少ない言語。インターネット上のコンテンツや音声データが限られており、AI開発が困難とされる。
fairseq2
Metaがオープンソースとして公開している、音声・言語処理のための深層学習フレームワーク。PyTorchベースで構築されている。
【参考リンク】
Meta AI Research(FAIR)(外部)
Metaの基礎AI研究チーム。深層学習や自然言語処理など幅広い分野で先端研究を行い、多くの成果をオープンソース化している
Omnilingual ASR GitHubリポジトリ(外部)
Omnilingual ASRのモデル、コード、データセットが公開されているページ。Apache 2.0ライセンスで自由に利用可能
Mozilla Common Voice(外部)
Mozillaが運営するクラウドソーシング型の音声データ収集プロジェクト。ボランティアの音声をCC0ライセンスで公開
Omnilingual ASR言語探索デモ(外部)
Omnilingual ASRが対応する1,600以上の言語を視覚的に探索できるインタラクティブなデモサイト
fairseq2フレームワーク(外部)
音声・言語処理タスク向けのオープンソース深層学習フレームワーク。PyTorchエコシステムに基づく
【参考記事】
Data Points: Meta AI now recognizes 1600 languages(外部)
DeepLearning.AIの解説記事。コンテキスト内学習で数個のサンプルで新言語対応できる革新性に焦点
Meta’s new Omnilingual AI can understand 1600+ languages(外部)
Business Standard記事。3億から70億パラメータまでのモデルファミリー展開と低電力デバイスでの実用性を報道
【編集部後記】
音声認識技術は、もはやスマートフォンの音声入力だけのものではなくなってきています。私たちが日常で使っている言語が、もしAIに理解されないとしたら、どれほど不便でしょうか。Omnilingual ASRは、1,600以上の言語に対応することで、テクノロジーへのアクセスを「誰もが当たり前に持てる権利」に変えようとしています。あなたの身近にも、母語でのデジタル体験を諦めている方はいませんか。この技術が広がることで、言語の壁が消えた未来がどう変わるか、一緒に想像してみませんか。

