カナダのAI企業Cohere(本社トロント)は2025年7月31日、企業向けビジョンモデル「Command A Vision」をリリースした。
このモデルはパラメータ数1120億、GPU2基以下で動作し、光学式文字認識(OCR)と画像解析に特化している。同社の「Command A」モデルをベースに構築され、ベースモデルが対応する23言語のテキスト能力を継承している(注:Command A Visionの公式ドキュメントで現在明記されているのは、英語、ポルトガル語、イタリア語、フランス語、ドイツ語、スペイン語の6言語である)。
モデルはLLaVAアーキテクチャを採用し、1つの画像を最大3,328トークンで処理する。ビジョン言語アライメント、教師ありファインチューニング、人間のフィードバックによる強化学習の3段階で訓練された。ベンチマークテストでは9項目で他社モデルと比較され、OpenAIのGPT-4.1(78.6%)、MetaのLlama 4 Maverick(80.5%)、MistralのMistral Medium 3(78.3%)を上回る平均83.1%のスコアを記録した。
CohereのCommand A Visionの発表は、企業向けマルチモーダルAIの分野で重要な転換点となる可能性があります。この技術の最も革新的な側面は、わずか2基のGPUで1120億パラメータのビジョンモデルを動作させる効率性にあります。一般的な大型言語モデルが数十基規模のGPUを必要とすることを考えると、この軽量設計は企業の導入コストを大幅に削減する可能性があります。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。