Cohere、エージェントAI「Command A+」をオープンソース化|富士通と連携、ソブリンAIの本命に

Cohereおよび Cohere Labs は、オープンソースのマルチモーダル大規模言語モデル「Command A+(command-a-plus-05-2026)」をHugging Face上で公開した。

本モデルは250億のアクティブパラメータと2180億の総パラメータを持つデコーダーのみのスパースMixture-of-Experts型Transformerであり、128個のエキスパートのうちトークンごとに8個がアクティブとなる構成を採る。コンテキスト長は入力128K、出力64Kをサポートし、テキストと画像の入力に対応する。日本語を含む48言語で訓練されており、エージェント型・推論タスク向けに最適化されている。ライセンスはApache 2.0。量子化バージョンはBF16、FP8、W4A4の3種が提供され、W4A4はNVIDIA B200を1基、またはH100を2基で動作する。W4A4ではNVFP4量子化をMoEエキスパートにのみ適用し、アテンション経路はフル精度を維持。ポストトレーニング段階で量子化を意識した蒸留(QAD)を採用している。Transformers、vLLM、SGLang、Docker Model Runnerに対応する。

From: 文献リンクCohereLabs/command-a-plus-05-2026-w4a4 · Hugging Face

【編集部解説】

今回 Cohere および Cohere Labs がHugging Faceで公開した「Command A+(command-a-plus-05-2026)」は、2026年5月20日にトロントで正式発表されたばかりの、エンタープライズ向けオープンソース大規模言語モデルです。innovaTopiaがこのモデルに注目する理由は、単に「新しいオープンソースLLMが出た」という以上の意味を持つからです。

まず特筆すべきは、Apache 2.0ライセンスでの公開という点です。同社CEOであるエイダン・ゴメス氏は、2017年の論文「Attention Is All You Need」でTransformerアーキテクチャを共著した8名のうちの一人ですが、その彼が率いる企業が、最も制約の少ない商用利用可能ライセンスで、エンタープライズ用途における第一線級のMoEモデルを開放した意義は非常に大きいといえます。

技術的なハイライトは、NVFP4 W4A4量子化と呼ばれる新世代の4ビット量子化技術の採用です。これはNVIDIAのBlackwell世代GPU(B200)に搭載されたFP4テンソルコアを活用するもので、従来のINT4量子化と異なり浮動小数点形式を維持するため、品質劣化を最小限に抑えながら大幅な高速化を実現します。

具体的には、W4A4版はB200を1基、あるいはH100を2基で稼働します。総パラメータ2180億という規模のモデルが、これだけ少ないハードウェアで動作することは、数年前には想像できなかった水準です。同社の公式ブログによれば、W4A4化により速度はさらに47%向上し、レイテンシは13%低減したとされています。

なぜ今、このようなハードウェア効率が重要なのでしょうか。それは「ソブリンAI(主権AI)」という潮流と密接に関わっています。Cohereは2026年4月24日、ドイツのAleph Alphaとの合併を発表しました。合併後の評価額は約200億ドル(約3兆円、1ドル=150円換算)で、ドイツの小売大手シュヴァルツ・グループから6億ドル(約900億円)の出資を受けています。この一連の動きは、米中の巨大AI企業に依存しない「第三極」を構築する戦略の一環です。

そして日本の読者にとって特に注目すべきは、富士通とのパートナーシップです。富士通とCohereは2024年7月から戦略的提携を結んでおり、Cohereの旧モデルを基盤とした日本語特化型LLM「Takane」を共同開発、Fujitsu Kozuchiを通じて提供してきました。今回のCohere公式ブログには、富士通のシステムプラットフォーム担当CTOであるビベック・マハジャン氏のコメントが掲載されており、Command A+のMoEアーキテクチャとエージェント性能を、Takane および Kozuchi Enterprise AI Factory を通じたソブリンAIソリューション提供に活用していく意向が示されています。Command A+は、日本のエンタープライズAI市場における次世代基盤としても重要な意味を持つことになりそうです。

性能面では、Artificial Analysisの独立評価において Intelligence Indexで37点を記録し、Claude 4.5 Haikuと同水準、NVIDIA Nemotron 3 SuperやGemini 3.1 Flash-Liteを上回るスコアを獲得しました。特にハルシネーション抑制を測る AA-Omniscience Non-Hallucinationでは86%で首位に立っており、「知らないことは知らないと言える」モデル設計が評価されています。

エージェント性能も大幅に向上しています。前世代のCommand A Reasoningと比較して、エージェント型コーディングのベンチマーク Terminal-Bench Hard では3%から25%へ、通信業務のエージェントタスクを測る 𝜏²-Bench Telecom では37%から85%へと飛躍的に改善されました。これは、APIやデータベースを呼び出して自律的に作業を進める「AIエージェント」の実用化が、いよいよ業務レベルに到達しつつあることを示唆します。

さらに、日本語ユーザーにとって嬉しいのは、新トークナイザーによる効率改善です。同じ応答を生成する際に必要なトークン数が、日本語で18%、韓国語で16%、アラビア語で20%削減されました。これは推論コストの直接的な削減につながり、非英語圏での実用展開を後押しします。

一方で、潜在的なリスクや限界にも触れておくべきでしょう。第三者ベンチマークによれば、Command A+ は最難関の科学的推論(HLE 約11%、GPQA Diamond 約76%)や、最先端のエージェント型コーディング領域では、ピアモデルにやや遅れを取っています。最先端の汎用性能を求める用途では、依然として他のフロンティアモデルとの使い分けが必要です。

規制への影響という観点では、本モデルがオープンソースで完全にプライベート展開可能である点が、EU AI Actや日本のAI事業者ガイドラインへの対応を容易にします。データを外部のAPIに送ることなく、自社の閉じた環境内で推論を完結できるため、医療・金融・公共部門での採用障壁が大きく下がります。

長期的な視点で見ると、今回のリリースは「AIインフラの民主化」と「地政学的分散化」という、相反するように見える二つの潮流が結びついた象徴的な出来事です。第一線級のオープンソースモデルが、限られた巨大企業のクラウドだけでなく、組織が自ら所有するGPU上で動く時代——その入り口に、私たちは立っているのかもしれません。

【用語解説】

Mixture-of-Experts(MoE / 専門家混合モデル)
ニューラルネットワークを「エキスパート」と呼ばれる複数の小さなサブネットワークに分割し、入力ごとに必要なものだけを選択的に動作させるアーキテクチャだ。Command A+ は128個のエキスパートのうち8個のみがトークンごとに稼働するため、総パラメータ2180億に対し実際の計算量は250億分にとどまる。

スパース/密(Dense)モデル
密モデルが入力ごとに全パラメータを使うのに対し、スパースモデルは一部のみを使用する。MoEはスパース化の代表例である。

アクティブパラメータ/総パラメータ
総パラメータはモデルが保持する全重みの数、アクティブパラメータは1トークンの生成時に実際に計算に使われる重みの数を指す。MoEモデルでは両者が大きく異なる。

量子化(Quantization)
モデルの重みを32ビットや16ビットから、より少ないビット数で表現する技術。メモリ使用量と計算量を削減できる一方、誤差が品質に影響する場合がある。

NVFP4 W4A4
NVIDIAが開発した4ビット浮動小数点形式。W4A4は「重み(Weight)4ビット、活性化(Activation)4ビット」を意味する。Blackwell世代GPU(B200など)のテンソルコアでネイティブにサポートされ、従来のINT4と異なり浮動小数点の表現力を保つため、精度劣化が小さい。

Quantization-Aware Distillation(QAD / 量子化を意識した蒸留)
ポストトレーニング段階で、量子化されたモデル(生徒)が、フル精度のモデル(教師)の出力分布を再現するように訓練する手法だ。順伝播では擬似的な量子化を行いつつ、逆伝播ではその量子化を通過させる「ストレートスルー推定器」を用いる。

コンテキスト長
モデルが一度に処理できる入力テキストの長さ。128Kは約9万〜10万語に相当する。

エージェント型タスク(Agentic Task)
モデルが単に応答を返すだけでなく、外部のAPI、データベース、検索エンジン、コードインタープリターなどを自律的に呼び出して目的を達成する一連の処理を指す。

スライディングウィンドウ・アテンション
注意機構の計算範囲を直近のトークンに限定することで、長文処理時の計算量を抑える手法だ。Command A+ では位置埋め込みを伴うスライディングウィンドウ層と、位置埋め込みのないグローバル・アテンション層を3対1の比率で交互配置している。

ハルシネーション
言語モデルが、事実に反する情報をもっともらしく生成してしまう現象。AA-Omniscience Non-Hallucinationはこれを抑制できているかを測るベンチマークである。

ソブリンAI(Sovereign AI / 主権AI)
データ、モデル、インフラを自国・自組織の管理下に置き、外部国家や特定ベンダーへの依存を避けるAI運用の考え方を指す。EU AI Actや各国の規制強化を背景に、近年急速に重要性が高まっている。

Apache 2.0ライセンス
オープンソースソフトウェアの代表的なライセンスのひとつ。商用利用、改変、再配布、特許利用が認められており、最も自由度の高いライセンスのひとつとして知られる。

【参考リンク】

Cohere 公式サイト(外部)
カナダ・トロントに本拠を置くエンタープライズ向けAI企業。2019年創業、エイダン・ゴメス氏らが共同設立。

Command A+ 公式紹介ページ(Cohereブログ)(外部)
Command A+のリリースを告知するCohere公式ブログ。アーキテクチャやベンチマークの詳細を解説。

CohereLabs/command-a-plus-05-2026-w4a4(Hugging Face)(外部)
Command A+ のW4A4量子化版モデル配布ページ。本記事の一次情報源にあたるモデルカード。

Hugging Face 公式サイト(外部)
機械学習モデルとデータセットの共有プラットフォーム。世界中の開発者・研究者が利用するハブ。

NVIDIA Blackwell アーキテクチャ紹介ページ(外部)
NVIDIA最新データセンター向けGPUアーキテクチャ。FP4テンソルコアでNVFP4量子化をネイティブ実行。

vLLM プロジェクト(外部)
カリフォルニア大学バークレー校発の高速LLM推論・サービングエンジン。Command A+ の推奨実行環境。

SGLang プロジェクト(外部)
構造化生成に強みを持つ高速LLM推論フレームワーク。Command A+ の対応フレームワーク。

Artificial Analysis(外部)
LLMの性能・速度・コストを独立評価するベンチマーク機関。Intelligence Indexなどを提供。

Fujitsu Kozuchi(Cohere顧客事例ページ)(外部)
富士通とCohereの協業による日本語LLM「Takane」の開発事例を紹介するCohere公式ページ。

Fujitsu and Cohere strategic partnership(富士通公式プレスリリース)(外部)
富士通とCohereの戦略的パートナーシップ締結とTakane共同開発の公式発表(2024年7月16日付)。

Aleph Alpha 公式サイト(外部)
ドイツ・ハイデルベルクに本拠を置くAI企業。2026年4月、Cohereとの合併を発表した。

【参考記事】

Introducing Command A+: Making sovereign agentic capabilities available to all(Cohere公式ブログ)(外部)
2026年5月20日付公式リリース。パラメータ数、ベンチマーク、量子化戦略、日本語トークン効率18%改善などを記載。

Cohere Releases Command A+: An Open-Source Enterprise AI Model Built for Sovereign Critical Infrastructure(Business Wire)(外部)
Cohereの累計調達額約16億ドル、主要投資家リスト(Nvidia、AMD Ventures、ヒントン氏ら)を記載。

Cohere launches open weights model Command A+, more than a year since the Command A release(Artificial Analysis)(外部)
独立評価。Intelligence Index 37点、AA-Omniscience 86%(1位)、推論速度281トークン/秒などを提示。

Cohere cracks lossless quantization and native citations with first full Apache 2.0 licensed open model Command A+(VentureBeat)(外部)
2180億パラメータの位置づけ、ネイティブ引用生成、ハードウェア効率戦略を解説する分析記事。

Why Cohere is merging with Aleph Alpha(TechCrunch)(外部)
合併後評価額200億ドル、Cohereの2025年評価額68億ドル、年間経常収益2億4000万ドルを報じる。

Cohere valued at around $20B in Aleph Alpha deal(Axios)(外部)
合併後評価額200億ドル、Schwarz Group6億ドル出資、欧州デジタル主権戦略を一次速報的に伝える。

Fujitsu launches Takane AI model, powered by Cohere(Cohere顧客事例)(外部)
富士通におけるTakaneの本格運用、Fujitsu KozuchiおよびFujitsu Data Intelligence PaaSへの統合状況を解説。

【編集部後記】

みなさんは普段、AIをどんな環境で使っていますか。クラウド経由のチャットサービスが当たり前になった今、「自社のサーバーで動くAI」という選択肢はやや遠い世界の話に感じられるかもしれません。けれど Command A+ のような第一線級のオープンソースモデルが登場したことで、その距離は確実に縮まりつつあります。日本語の処理効率が改善されたことや、富士通との協業が継続していることを考えると、私たちのすぐ近くにもこの変化の波が及んでくる予感がします。「どこに置くか」「誰が管理するか」という問いを、これを機に少しだけ意識してみると、AIとの付き合い方に新しい視点が生まれるかもしれませんね。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です