Microsoft Researchが大規模言語モデル(LLM)の進化、多言語性能評価、オーディオキャプション生成に関する最新研究を公開。特に、ツール使用の正確性向上のためのシミュレーション試行錯誤(STE)、非英語言語でのLLM性能の徹底評価、テキストのみを用いたオーディオキャプションモデルのトレーニングという新しいアプローチが注目されます。これらの研究は、LLMの応用範囲拡大と実用化への貢献が期待される一方で、技術進歩の倫理的問題や社会への影響も考慮が必要です。【用語解説とAIによる専門的コメントつき】
また、Microsoftの研究者たちは、最新のLLMが複数のタスクとベンチマークで古い言語モデルのパフォーマンスを上回り、時には人間のパフォーマンスに近づく、またはそれを超えることがあるが、これがモデルの能力の向上によるものなのか、データセットのアーティファクトやテストデータセットの汚染、真の能力を測定するデータセットの欠如などの他の効果によるものなのかは常に明らかではないと指摘しています。このため、LLMの能力と限界を理解するための研究が最近増加していますが、多くは英語に限定されており、非英語言語でのLLMの構築と評価は比較的未探索のままです。最近導入されたいくつかの新しいLLMを非英語言語で評価する必要があります。MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasksという論文では、GPT-3.5-Turbo、GPT-4、PaLM2、Mistral、Gemini、Gemma、Llama2などの最先端のLLMの非英語能力を、同じセットの多言語データセットで比較することにより、徹底的な評価を行うことを目指しています。彼らのベンチマークには、いくつかの低リソースのアフリカ言語を含む81言語をカバーする22のデータセットが含まれています。また、ベンチマークには2つのマルチモーダルデータセットも含まれており、LLaVA-v1.5とGPT-4-Visionのパフォーマンスを比較しています。実験により、GPT-4とPaLM2がさまざまなタスクでLlamaとMistralモデルを上回り、特に低リソース言語でGPT-4がPaLM2を上回ることが示されました。しかし、非英語言語でのLLMのパフォーマンスを正確に評価するためには、データ汚染などの問題に対処する必要があります。
Microsoft Researchが最新の研究成果やイベントなどを紹介する「Research Focus」シリーズの一環として、大規模言語モデル(LLM)の進化とその応用に関する興味深い研究が公開されました。この中で、特に注目されるのは、LLMが外部環境でのタスク実行に必要なツールの使用方法を学習する新しいアプローチ、多言語でのLLMの性能評価、そしてオーディオキャプションの生成に関する研究です。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。