Mistral Largeは英語だけでなく、フランス語、スペイン語、ドイツ語、イタリア語を含む複数の言語でネイティブな流暢さでテキストを理解、推論、生成できる。32Kトークンのコンテキストウィンドウを持ち、大規模なドキュメントの処理と情報の正確な記憶が可能である。MMLUベンチマークでは、81.2%の精度でGPT-4に次ぐ成績を示した。一方、コーディング性能のHumanEベンチマークでは45.1%の精度であり、GPT-3.5、GPT-4、Gemini Pro 1.0に後れを取った。
Microsoftとのパートナーシップにより、MistralのモデルはAzure AI StudioとAzure Machine Learningで利用可能となり、Azureを通じてモデルを利用するユーザーは既存のクレジットを使用し、独自のAPIと同様にシームレスなユーザーエクスペリエンスを享受できる。また、Amazon Web Services (AWS)もMistralのオープンモデルをAmazon Bedrockで提供する予定であるが、具体的な時期は明らかにされていない。
このパートナーシップにより、MistralのモデルはAzure AI StudioとAzure Machine Learningで利用可能になり、Azureを通じてモデルを利用するユーザーは既存のクレジットを使用してシームレスな体験を享受できます。さらに、Amazon Web Services (AWS)もMistralのオープンモデルを提供する予定であり、これによりMistralのモデルはより広範なユーザーに届けられることになります。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。