NTT、世界初「トークン共通化」技術を確立——異種LLM間の”語彙の壁”がついに崩れる

NTTは2026年4月22日、大規模言語モデル（LLM）のトークン語彙を精度劣化なく縮小し、異種LLM間でトークン語彙を共通化できる世界初の推論技術を確立した。

本技術により、これまでトークン語彙の不一致を理由に異種LLM間では困難だったアンサンブルやNTT独自のポータブルチューニングなどの推論時連携が可能となる。実験では、約15万個と約13万個のトークンを持つ異種LLM間で最大共通語彙（約6万トークン）を用いたアンサンブルを検証し、単体モデルより推論精度が向上することを確認した。本成果は、2026年4月23日から27日にブラジル・リオデジャネイロで開催されるICLR 2026にて発表される。

From: LLM間の「語彙の壁」を克服する世界初の「トークン共通化」技術を確立～異種LLM同士も密に連携させ、高性能化につながる知識の統合や転移を可能に～ | ニュースリリース | NTT

【編集部解説】

NTTが発表したこの研究の核心は、「異なるAIモデル同士が、そのまま”言葉”を共有できる仕組み」を世界で初めて理論的に証明し、実用的なアルゴリズムとして実装したことです。

LLMはテキストを「トークン」という部品単位で処理しています。入力された文章に続く次のトークンを確率で予測する「次トークン予測」を繰り返すことで文章を生成しますが、この予測の単位であるトークンの語彙が各モデルによって異なることが、連携の最大の障壁でした。開発会社や時期が異なるモデルはそれぞれ独自の「トークン語彙」を持っており、たとえば同じ単語でも別のモデルでは違うトークンに分解されることが珍しくありません。

これまでも複数LLMの連携は研究されてきましたが、既存のアプローチは「単語単位でのアンサンブル」など、トークンの不一致を”回避”する方向の工夫でした。NTTの手法が革新的なのは、回避ではなく「精度を一切落とさず語彙を縮小・共通化する」という理論を新たに打ち立てた点です。出力される文章の確率分布が変わらないことを数学的に保証した上で、変換を実現しています。

実用上の鍵となるのは、計算コストをほぼ増やさない工夫です。語彙変換には本来、多くの追加計算が必要になりますが、過去の計算結果のキャッシュ再利用と、確率がほぼゼロのトークンの省略という2つの設計により、通常の推論と同程度のコストで動作します。

この技術が実現する最も大きなインパクトは、「異なるLLMが”それぞれの強み”を持ち寄れる」環境が本格的に整うことです。たとえば数学に強いモデルと別の能力を持つモデルをアンサンブルで組み合わせ、単体では出せなかった精度を引き出すといった活用が現実的になります。また、NTT独自のポータブルチューニング技術との組み合わせにより、新しい基盤モデルに対して再学習なしで専門知識を転移させるコストも、大幅に下がる可能性があります。

日本という文脈で見ると、NTT独自のLLM「tsuzumi」が他の国内外の市中モデルと語彙の壁なく連携できるようになる点は見逃せません。グローバルな汎用モデルでは対応しにくい産業固有の専門知識や日本語特有の表現を、tsuzumiが担いながら他モデルと協調する、という構図が描けます。

一方で、潜在的なリスクも考えておく必要があります。複数のLLMを組み合わせるアンサンブルは精度向上に有効ですが、各モデルが持つバイアスをそのまま統合してしまうリスクも伴います。一方のモデルが偏った出力傾向を持っていた場合、共通語彙上での確率集約がその偏りを増幅させる可能性は否定できません。また、複数モデルの同時稼働はインフラコストの増大も意味し、エネルギー消費や運用負荷という観点での評価も今後必要になるでしょう。

規制・ガバナンスの面では、この技術が「どのモデルが最終的な出力を生成したか」の追跡を複雑にする可能性があります。EU AI Actなどが透明性の確保を求める中、アンサンブルによる責任の所在の曖昧化は、説明可能性の議論に新たな課題を投げかけます。

長期的に見れば、本技術はAIの「モジュール化」という大きなトレンドを加速させるものです。一社が巨大な単一モデルですべてを賄う時代から、目的ごとに最適なモデルを組み合わせて使う時代へ——その移行における”共通言語”を、NTTが提供しようとしていると捉えることができます。

【用語解説】

LLM（大規模言語モデル）
「Large Language Model」の略。膨大なテキストデータを学習することで、自然言語の理解・生成を行うAIモデルの総称。GPT、Gemini、Claudeなどが代表例で、企業・研究機関がそれぞれ独自のアーキテクチャと学習データで開発している。

トークン／トークン語彙
LLMがテキストを処理する際の最小単位が「トークン」である。1トークンは1文字とは限らず、英語では単語の一部、日本語では数文字のまとまりになることが多い。すべてのトークン候補の集合を「トークン語彙」と呼び、モデルによって数万〜数十万規模で構成される。各LLMはこの語彙を独自に設計しているため、モデルが違えば語彙も異なる。

次トークン予測
LLMが推論を行う際の基本メカニズム。入力されたテキストに続く次のトークンを確率分布として計算し、最も適切なトークンを選んで出力する。この繰り返しによって文章が1トークンずつ生成される。各LLMは固有のトークン語彙に基づいてこの予測を行うため、語彙が異なるモデル間では予測結果を直接比較・統合できない。

アンサンブル
複数のモデルの予測結果を統合し、より精度の高い出力を得る手法。単体モデルの弱点を補い合えるため古くから機械学習で活用されてきたが、LLMではトークン語彙の不一致が壁となり、異種モデル間での実施が困難だった。

最大共通語彙
異なるトークン語彙を持つ複数のLLMの間で、共通して存在するトークンをすべて集めた集合のこと。本技術はこの最大共通語彙を共通プラットフォームとして用いることで、異種LLM間のアンサンブルを実現する。

【参考リンク】

NTT株式会社（日本電信電話株式会社）公式サイト（外部）
NTTグループの公式コーポレートサイト。ニュースリリース、研究開発、IR情報などを掲載する日本最大級の通信・テクノロジー企業グループの情報ハブである。

NTT R&D Website（外部）
NTT研究開発部門の公式サイト。AIや通信技術に関する最新の研究成果、論文、技術解説を公開している。本技術に関連する研究情報もここで確認できる。

NTT版大規模言語モデル「tsuzumi 2」（外部）
NTTが独自開発した日本語特化型LLM「tsuzumi」の公式紹介ページ。軽量設計と高い日本語処理能力を特長とし、本技術の応用先として期待されているモデルである。

ICLR 2026（International Conference on Learning Representations）（外部）
深層学習分野における最難関国際会議の公式サイト。2026年はブラジル・リオデジャネイロで開催され、本研究はここで発表される。採択率の低さでも知られる、AI研究者の登竜門的な学術場である。

NTT「ポータブルチューニング」技術ニュースリリース（2025年7月9日）（外部）
本記事内で言及されている「ポータブルチューニング」に関するNTT公式ニュースリリース。再学習なしで特化学習の効果を別モデルへ転移させる、NTT独自技術の詳細を解説している。

【参考記事】

“Lossless Vocabulary Reduction”（Emergent Mind）（外部）
本研究の理論構造（ネスト型トークン化・確率保存変換・最大共通語彙によるアンサンブル）を論文ベースで体系的に解説した英語技術記事。

ICLR 2026採択論文・アンサンブルとトークン化不一致に関する研究（OpenReview）（外部）
異なるトークナイザーを持つ3モデルを用いて語彙不一致問題とアンサンブル手法を検証した論文。NTT研究が解決する課題の背景を実験的に裏付けている。

“How LLM Tokenization Actually Works Under the Hood”（Let’s Data Science）（外部）
語彙エントリの約4.3%がグリッチトークンである点や、Javaで14.7%のトークンが書式設定に消費される問題など、語彙設計の課題を数値で示した解説記事。

“Tokenization is Killing our Multilingual LLM Dream”（Hugging Face Blog）（外部）
多言語LLMにおけるトークナイズの根本的問題を論じた記事。語彙設計の不備が多言語処理性能に与える影響を70言語規模の研究をもとに分析している。

“Tokenization Matters!”（arXiv）（外部）
GPT-4oやDeepSeek-R1など主要LLMを対象に、トークン化の誤りが出力品質に与える悪影響を実証。モデル規模に関係なく普遍的に発生することを示している。