Google Deepmindと南カリフォルニア大学が、大規模言語モデル(LLMs)の推論能力向上のため「自己発見」プロンプトフレームワークを提案。この技術は、GPT-4やPaLM 2などの性能を最大32%向上させ、推論タスクでの計算量を大幅に削減。LLMsが困難な問題をより効率的に解決し、人間とAIのコラボレーションの新たな可能性を開くことが期待されます。【用語解説とAIによる専門的コメントつき】
Google Deepmindと南カリフォルニア大学の研究者たちは、大規模言語モデル(LLMs)の推論能力を向上させるために、「自己発見」プロンプトフレームワークを提案しました。この新しいアプローチは、既存のプロンプト技術を超え、OpenAIのGPT-4やGoogleのPaLM 2などの既知のモデルの性能を向上させることができることが確認されました。具体的には、BigBench-Hard、地上エージェント推論、MATHなどの難易度の高い推論ベンチマークで、従来のChain of Thought(CoT)と比較して最大32%の性能向上が見られました。
研究者たちは、GPT-4やPaLM 2-Lを含む複数のモデルでこの新しいアプローチをテストし、25の推論タスクで性能を評価しました。その結果、25のタスク中21で、自己発見がChain of Thought推論や他の技術よりも優れた性能を発揮し、最大32%の性能向上が見られました。また、推論に必要な計算量が10から40倍少なくなることも確認されました。GPT-4を使用した場合、Big-Bench Hard、Thinking for Doing、Mathのタスクでそれぞれ81%、85%、73%の精度を達成しました。これは、Chain of Thoughtやplan-and-solveアプローチと比較して高い精度です。
Google Deepmindと南カリフォルニア大学の研究者たちが、大規模言語モデル(LLMs)の推論能力を向上させるための新しいアプローチ、「自己発見」プロンプトフレームワークを提案しました。この技術は、従来のプロンプト技術を超え、特にOpenAIのGPT-4やGoogleのPaLM 2などの既知のモデルの性能を向上させることができるとされています。具体的には、難易度の高い推論ベンチマークであるBigBench-Hard、地上エージェント推論、MATHなどで、従来のChain of Thought(CoT)と比較して最大32%の性能向上が見られました。
研究者たちは、この新しいアプローチをGPT-4やPaLM 2-Lを含む複数のモデルでテストし、25の推論タスクで性能を評価しました。その結果、25のタスク中21で、自己発見がChain of Thought推論や他の技術よりも優れた性能を発揮し、最大32%の性能向上が見られました。また、推論に必要な計算量が10から40倍少なくなることも確認されました。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。