スタンフォード大学の助教授であるSanmi Koyejo氏は、NeurIPS 2024シリーズの一環として、最近受賞した2つの論文について議論しました。最初の論文「Are Emergent Abilities of Large Language Models a Mirage?」では、大規模言語モデル(LLM)の評価方法と、算数の実行などの「新たな能力」に対する興奮に焦点を当てています。Koyejo氏は、非線形指標を使用してモデルの性能を評価すると、モデルが急速に新しい能力を獲得しているという錯覚が生じる可能性がある一方で、線形指標では予想通りの滑らかな改善が示され、出現の重要性に疑問を投げかけると説明しています。
次に、「DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models」という論文では、LLMの毒性、プライバシー、公平性、堅牢性などの懸念を評価するための方法論について議論しています。これらの研究を通じて、大規模言語モデルの新たな能力の出現や信頼性に関する一般的な議論が展開されています。
また、Koyejo氏は「DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models」という論文を通じて、LLMの毒性、プライバシー、公平性、堅牢性などの懸念を評価するための方法論についても議論しています。これらの研究は、LLMの新たな能力の出現や信頼性に関する一般的な議論を深めるものです。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。