Microsoft Researchは、小規模言語モデル(SLM)の特化したモデル、Orca-Mathの開発に成功しました。このモデルは、学校の数学問題を解決する能力に焦点を当てており、7億パラメータを持つMistral 7Bモデルを微調整して作成されました。Orca-Mathは、GSM8k(Grade School Math 8K)の評価で86.81%の成績を収め、LLAMA-2-70、Gemini Pro、GPT-3.5などの一般モデルや、MetaMath-70B、WizardMa8th-70Bなどの数学特化モデルを上回る性能を示しました。
Orca-Mathの成功は、高品質な合成データに基づくトレーニングと、反復学習プロセスを通じた練習とフィードバックによる改善によるものです。合成データは、AutoGenを使用したマルチエージェントによって生成され、20万の数学問題を含みます。このアプローチにより、SLMが特定の領域で大規模モデルと同等の性能を達成する可能性を示しています。
研究チームは、この成果をさらに推し進めるために、トレーニングデータセットとトレーニング手順を記述したレポートを公開し、小規模言語モデルの改善と特化に関する研究を奨励しています。この研究は、外部ツールや検証器、アンサンブル技術を使用せずに、SLMが数学問題を解決する能力をどこまで高めることができるかを探求することを目的としています。
【ニュース解説】
Microsoft Researchが開発したOrca-Mathは、小規模言語モデル(SLM)が特定の分野、この場合は学校の数学問題を解決する能力に特化したモデルです。このモデルは、7億パラメータを持つMistral 7Bモデルを微調整することで作成され、GSM8k(Grade School Math 8K)の評価で86.81%の成績を収めました。これは、一般的な大規模モデルや数学特化モデルを上回る性能を示しています。
Orca-Mathの成功の背景には、高品質な合成データに基づくトレーニングと、反復学習プロセスを通じた練習とフィードバックによる改善があります。特に、AutoGenを使用したマルチエージェントによって生成された20万の数学問題を含む合成データの使用は、SLMが特定の領域で大規模モデルと同等の性能を達成する可能性を示しています。
この研究は、外部ツールや検証器、アンサンブル技術を使用せずに、SLMが数学問題を解決する能力をどこまで高めることができるかを探求しています。このアプローチは、教育や学習支援ツールとしてのSLMの活用可能性を広げると同時に、AIのトレーニングコストを削減する可能性を秘めています。
この研究のポジティブな側面は、特化したSLMが大規模モデルに匹敵する性能を発揮できることを示した点にあります。これにより、特定のタスクにおいては、より少ないリソースで効率的に問題解決が可能になります。一方で、潜在的なリスクとしては、特化したモデルの開発が特定のタスクに限定されるため、汎用性の低下が考えられます。
規制に与える影響としては、特化したAIモデルの開発と使用に関するガイドラインや基準が必要になる可能性があります。また、将来への影響としては、特化したSLMの開発が進むことで、教育や研究、ビジネスなど様々な分野でのAIの活用が加速されることが期待されます。長期的な視点では、特化したSLMの進化が、AI技術全体の発展に貢献し、人間とAIの協働の新たな形を生み出す可能性があります。
from Orca-Math: Demonstrating the potential of SLMs with model specialization.