VoxCPM2登場、OpenBMBの無料TTSが30言語・48kHz・商用可で音声合成を変える

OpenBMBが2026年4月、音声合成システムVoxCPMの最新メジャーリリースVoxCPM2を公開しました。トークナイザー不要の拡散自己回帰アーキテクチャを採用し、離散的なトークン化を介さず連続的な音声表現を直接生成します。

MiniCPM-4をバックボーンとする20億（2B）パラメータのモデルで、200万時間を超える多言語音声データで学習し、30言語に対応します。参照音声なしで声を作るボイスデザイン、参照音声から音色をクローンするコントロール可能なボイスクローニング、48kHzの音声出力を備えます。NVIDIA RTX 4090上のRTFは約0.30、Nano-vLLMまたはvLLM-Omni利用時は約0.13、VRAMは約8GBです。ウェイトとコードはApache-2.0ライセンスで公開され、商用利用が可能です。リポジトリのスター数は24.1k、フォークは2.8kとなっています。

From: VoxCPM2: Tokenizer-Free TTS for Multilingual Speech Generation, Creative Voice Design, and True-to-Life Cloning

【編集部解説】

VoxCPM2を理解する鍵は、開発元がどこかという点にあります。OpenBMBは2021年に清華大学に関連するオープンソースAI研究の取り組みとして発足し、清華大学自然言語処理研究室（THUNLP）が関わっています。商用化を担うModelBest（面壁智能）は2022年8月、清華大学NLP研究室からのスピンオフとして設立されました。つまりVoxCPM2は、軽量で高性能な「オンデバイス（端末上で動く）」モデルを得意とする系譜の上に立っています。

この出自は、今回のスペックの読み解き方を変えます。2B（20億）パラメータという規模は、昨今の巨大モデルと比べれば小ぶりです。約8GBのVRAMで動くという数字は、データセンターではなく、手元のRTX 4090のような一枚のコンシューマー向けGPUで完結することを意味します。つまりVoxCPM2の主張の核心は「最高品質」だけでなく、「自分の機材で、外部に音声を送らずに動かせる」という運用上の自由度にあるのです。

技術的にもっとも目を引くのは「トークナイザー不要（tokenizer-free）」という設計思想でしょう。従来の多くの音声合成は、音声をいったん離散的な「トークン」へ区切って扱います。VoxCPM2はこの工程を省き、連続的な音声表現を直接生成します。いったん素材を加工してから戻すのではなく、生のまま扱うようなイメージです。情報の目減りが少なく、より自然で表情豊かな音声につながると期待されます。

学習データの規模も見逃せません。READMEは「200万時間超」と記しますが、公式ドキュメントはより具体的に、中国語・英語の基礎データ180万時間に多言語56万時間を加えた計236万時間で学習したと説明しています。30言語という広がりは、この多言語データの上に成り立っているわけです。

実用面では、3つのモードの違いを押さえると応用が見えてきます。参照音声なしで言葉の説明から声を作る「ボイスデザイン」、短いサンプルから音色を写し取る「ボイスクローニング」、そして書き起こしまで与えて細部まで再現する「アルティメット・クローニング」です。ナレーション、ゲームのキャラクターボイス、多言語コンテンツの吹き替えまで、個人や小規模チームが内製できる範囲が一気に広がります。

ここで、参照元が触れていない視点を1つ加えます。VoxCPM2は単独の製品ではなく、OpenBMBが育ててきた「小さくて強い」モデル群のエコシステムの一部だという点です。同社は9Bパラメータで視覚・音声・全二重のライブストリーミングに対応するMiniCPM-o 4.5などを展開しており、音声合成はそのマルチモーダル戦略の重要なピースに位置づけられます。「Tech for Human Evolution」の観点では、声という人間性の核に近い領域が、巨大資本を持たない開発者の手にも開かれつつある——そこにこそ報じる価値があると私たちは考えます。

もちろん、光が強いほど影も濃くなります。リアルな声を誰でも複製できるということは、なりすましや詐欺、偽情報の温床にもなり得ます。これはVoxCPM2固有の問題ではなく、業界全体の課題です。不正対策の研究者は、音声クローンを最も「民主化」されたディープフェイクの攻撃手段の1つと位置づけており、わずか数秒の音声から説得力のあるクローンが作れてしまうと指摘しています。開発元自身も、なりすまし・詐欺・偽情報への利用を禁じ、生成物への明示を強く推奨しています。

規制の流れも見ておきましょう。本人の声を保護し、許諾のない商用クローンを禁じるテネシー州の「ELVIS法」のような立法が登場し、EUのAI法はAI生成音声を含む合成メディアに表示を求めています。オープンソースで誰もが使えることと、社会的なルール整備をどう両立させるか。VoxCPM2のようなツールの普及は、この議論を一段と加速させるはずです。

競合環境も急速です。Mistral AIは2026年3月26日に40億パラメータのオープンソースTTS「Voxtral TTS」を公開しましたが、ライセンスを見るとオープンウェイトのモデルはCC BY NC 4.0のもとで非商用利用に限り無料で、商用利用には別途ライセンスが必要です。この点でVoxCPM2がApache-2.0で商用まで開放している事実は、開発者にとって実務上の大きな差別化要因になります。「使えるか」だけでなく「商用で使ってよいか」というライセンスの読み解きが、今後ますます重要になるでしょう。

性能面の客観的な数字も出始めています。ある技術系記事は、VoxCPM2がMinimax-MLSベンチマークの英語における声の類似度で85.4%を記録し、ElevenLabsの61.3%を上回ったと報じました。ただし同記事は、この類似度のスコアは全体像の半分にすぎないとも釘を刺しています。一つの指標だけで優劣を断じるのは早計であり、用途に応じた検証が欠かせない——この姿勢こそ、私たちが大切にしたい視点です。

長期的には、音声は「打ち込む」ものから「指示して生成する」ものへと変わっていくのかもしれません。テキストを書くようにキャラクターの声を設計し、母語の話者がいなくても30言語で発信できる時代が、手元の一台で現実になりつつあります。私たち日本の読者にとっては、言語の壁を越える発信力を個人が手にする転換点として、注視に値する一歩だと言えるでしょう。

【用語解説】

トークナイザー不要（tokenizer-free）
音声をいったん離散的な「トークン」に区切る工程を省き、連続的な音声表現を直接生成する設計のこと。情報の目減りを抑え、より自然な合成につながるとされる。

拡散自己回帰アーキテクチャ（diffusion autoregressive）
ノイズから徐々に整える「拡散モデル」の手法と、直前までの出力をもとに次を予測する「自己回帰」の手法を組み合わせた生成方式。VoxCPM2の中核をなす。

ボイスデザイン
参照音声を使わず、性別・年齢・トーン・感情・話す速さといった自然言語の説明だけから新しい声を作り出す機能。

ボイスクローニング
短い参照音声から話者の音色（声色）を写し取り、別のテキストを同じ声で読み上げさせる技術。

48kHz（サンプルレート）／非対称設計
1秒間に音を48,000回記録する、スタジオ品質に相当する音質のこと。VoxCPM2は16kHzの参照音声を受け取り、AudioVAE V2が内部で48kHzへ引き上げて出力する「非対称設計」を採るため、外部のアップサンプラーを必要としない。

RTF（リアルタイムファクター）
音声を生成するのにかかる時間と、その音声の再生時間の比。値が小さいほど高速で、1未満なら実時間より速く生成できることを示す。

VRAM
GPUが備える専用メモリ。モデルを動かすのに必要な容量の目安となり、VoxCPM2は約8GBで動作するとされる。

Apache-2.0ライセンス
商用利用を含めて無償で利用・改変・再配布できる、寛容なオープンソースライセンスの一つ。

LoRA／SFT（ファインチューニング）
既存モデルを少量のデータで特定の話者や用途に適応させる調整手法。SFTは全体を学習し直す方式、LoRAは少ない追加パラメータで効率よく適応させる方式を指す。

MiniCPM-4
OpenBMB／ModelBestが開発する軽量・高性能な言語モデル群「MiniCPM」シリーズの一つ。VoxCPM2の言語モデル基盤（バックボーン）として用いられている。

ELVIS法
本人の声を保護し、許諾のない商用の音声クローンを禁じる、米国テネシー州の法律。

【参考リンク】

VoxCPM 公式リポジトリ（GitHub / OpenBMB）（外部）
VoxCPM2本体。コード、使い方、バージョン比較表、リスクと制限事項を公式に掲載。

VoxCPM 2.0 ドキュメント（外部）
インストールからAPI・CLI・デモまでの手順や、学習データの内訳を記す公式文書。

VoxCPM2 デモページ（OpenBMB）（外部）
アーキテクチャ概要と実際の合成音声サンプルを公開する公式のデモページ。

VoxCPM オンラインデモ（Hugging Face Space）（外部）
ブラウザ上でVoxCPM2を試せる公式プレイグラウンド。インストール不要で体験可能。

openbmb/VoxCPM2（Hugging Face モデルページ）（外部）
モデルのウェイト配布ページ。スペック要約、利用例のコード、引用情報を掲載。

OpenBMB 公式サイト（外部）
VoxCPMやMiniCPMを開発する研究コミュニティOpenBMBの概要と理念を紹介。

【参考記事】

VoxCPM2: The Open-Source Voice Model That Beats ElevenLabs on Similarity（Medium／Ewan Mak）（外部）
類似度85.4%でElevenLabsの61.3%を上回るも、数字は半分にすぎないと指摘する記事。

VoxCPM2 | AI Model | There’s An AI For That（外部）
20億パラメータ・30言語・48kHz・RTFなどVoxCPM2の主要スペックを整理した紹介記事。

Mistral Voxtral TTS Review 2026（ComputerTech）（外部）
競合Voxtral TTSのレビュー。非商用ライセンスである点をVoxCPM2との対比に用いた。

ElevenLabs Voice Cloning in 2026（margabagus.com）（外部）
音声クローンの悪用リスクとELVIS法・EU AI法など規制動向を整理した記事。

VoxCPM 2.0 documentation（公式ドキュメント）（外部）
236万時間の学習内訳や16kHz→48kHzの非対称設計を明記した公式の技術文書。

OpenBMB / ModelBest – AI Research Lab Intelligence（nextomoro.com）（外部）
OpenBMBの2021年発足やModelBestのスピンオフなど開発元の出自を整理した記事。

MiniCPM-V 4.6: Tsinghua Spinoff Open-Sources a 1.3B Multimodal Model（Pandaily）（外部）
RTX 4090一枚で動く小型多モデルを報じ、同社の設計思想を裏づける記事。

【編集部後記】

自分の声を作る、あるいは複製する技術が、手元のパソコン一台に降りてきました。みなさんなら、この声をどう使ってみたいでしょうか。多言語での発信、創作のナレーション、あるいは聞き取りやすい読み上げかもしれません。一方で、なりすましのような影の部分も同じ重さで存在します。便利さと危うさが背中合わせのこの技術と、私たちはどんな距離感で付き合っていけばよいのか——よろしければ、その問いをみなさんと一緒に考えていけたら嬉しいです。