Cohere for AIが2022年に設立し、2023年に101言語をサポートするオープンソースの大規模言語モデルAyaを発表。このプロジェクトは、世界中の3000人以上のコラボレーターと119カ国の参加者によるもので、5億1300万以上のアノテーションを使用。Ayaは、以前サービスされていなかった50以上の言語に対応し、言語多様性の促進を目指す。【用語解説とAIによる専門的コメントつき】
Cohere for AI、非営利の研究所であるCohereが2022年に設立したもので、2023年1月にAyaという101言語をサポートするオープンソースの大規模言語モデル(LLM)を発表した。このモデルは、既存のオープンソースモデルがカバーする言語数の2倍以上に及ぶ。また、Ayaプロジェクトには、人間のアノテーションを含むAyaデータセットもリリースされた。これは、一般的でない言語のトレーニングデータが少ないという障害を克服するための鍵となる。Cohere for AIのエンジニアは、少ないトレーニングデータでモデルの性能を向上させる方法も見つけ出したという。
Ayaプロジェクトは、世界中の3000人以上のコラボレーターと119カ国のチームや参加者を含む大規模な取り組みであった。このプロジェクトでは、5億1300万以上のインストラクションファインチューニングアノテーション(情報を分類するためのデータラベル)が使用された。Cohere for AIは、Ayaモデルの性能を既存のオープンソースの大規模多言語モデルと比較し、ベンチマークテストで「大幅に」性能が向上していることを確認した。これにより、ソマリ語やウズベク語など、以前はサービスされていなかった50以上の言語に対応を拡大した。
Cohere for AIによると、英語以外の言語でのファインチューニングデータは非常に稀であり、Ayaのデータは「非常に珍しい」とされる。このデータセットから選択された言語を使用して、言語のサブセットに対応するモデルを作成し、改善することが期待されている。また、Google DeepMindの研究者だったAleksa Gordicは、言語特有のLLM用のフルスタック生成AIプラットフォームを構築しており、セルビア語、ボスニア語、クロアチア語、モンテネグロ語でMistralやLlama 2を上回る性能を持つYugoGPTを開発したと述べている。
Cohere for AIのAyaモデルとデータセットは、Hugging Faceで既に利用可能である。
【ニュース解説】
Cohere for AI、非営利の研究所であるCohereが2022年に設立し、2023年1月にAyaという名前のオープンソースの大規模言語モデル(LLM)を発表しました。このモデルは101言語をサポートしており、既存のオープンソースモデルがカバーする言語数の2倍以上に及びます。Ayaプロジェクトは、世界中の3000人以上のコラボレーターと119カ国のチームや参加者による大規模な取り組みであり、5億1300万以上のインストラクションファインチューニングアノテーションが使用されました。このプロジェクトは、一般的でない言語のトレーニングデータが少ないという障害を克服するための鍵となる人間のアノテーションを含むAyaデータセットもリリースしました。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。