Command R+は、企業のユースケースに最適化されており、不正確さを減らすための引用付きの最高クラスのRAG、10の主要ビジネス言語での多言語カバレッジ(日本語も可能)、複雑なワークフローを自動化するための強力なTool Use APIを提供する。このモデルは、RAG、多言語機能、ツール使用において類似のオファリングを上回る性能を発揮し、データプライバシーとセキュリティへのCohereのコミットメントを維持している。
CohereのCommand R+は、ToolTalk(Hard)やBerkeley Function Callingなど、主要な企業AIベンチマークで他の大規模言語モデルを上回る性能を示している。また、Xのユーザーによると、OpenAIのGPT-4 Turbo、Anthropicの新しいClaude 3、Mistral Largeを含む主要な性能ベンチマークで勝っている。
Command R+は、企業のユースケースに最適化されており、不正確さを減らすための引用付きの最高クラスのRAG、10の主要ビジネス言語での多言語カバレッジ、複雑なワークフローを自動化するための強力なTool Use APIを提供します。このモデルは、RAG、多言語機能、ツール使用において類似のオファリングを上回る性能を発揮し、データプライバシーとセキュリティへのCohereのコミットメントを維持しています。
CohereのCommand R+は、ToolTalk(Hard)やBerkeley Function Callingなど、主要な企業AIベンチマークで他の大規模言語モデルを上回る性能を示しています。また、Xのユーザーによると、OpenAIのGPT-4 Turbo、Anthropicの新しいClaude 3、Mistral Largeを含む主要な性能ベンチマークで勝っています。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。