AI(人工知能)ニュース

マイクロソフト、コード言語モデルの革新で新時代へ―CodeOceanとWaveCoderが指示チューニングを再定義

マイクロソフトがCodeOceanとWaveCoderを開発し、高品質な指示データ生成でコード言語モデルを強化。これにより、LLMの一般化能力が向上。

Published

on

from Microsoft’s WaveCoder and CodeOcean Revolutionize Instruction Tuning.

マイクロソフトの研究チームは、コード言語モデルの分野で革新的なアプローチを開拓し、CodeOceanとWaveCoderを導入して指示チューニングを再定義しました。これらの技術は、従来の方法でのデータの重複やデータ品質の制御の限界に対処するために、多様で高品質な指示データを生成することを目指しています。

CodeOceanデータセットは、4つの普遍的なコード関連タスクにわたる20,000の指示インスタンスを特徴とし、ソースコードを利用してデータ品質を明示的に制御し、データの重複を軽減し、指示データの高い基準を保証します。これにより、様々なコード関連タスクでの大規模言語モデル(LLM)の一般化能力が大幅に向上します。

WaveCoderは、最近のLLMの進歩に基づいて、広範囲かつ多用途の強化指示チューニング戦略を採用しています。指示データ生成の課題に対処することで、WaveCoderは他のオープンソースモデルと比較して、類似の微調整スケールでも多様なコード関連タスクでの優れた一般化能力を示しています。

マイクロソフトの研究者たちは、CodeOceanに組み込まれた新しいLLMベースのジェネレーター-ディスクリミネーターフレームワークを提案しています。このフレームワークは、GPT-4を使用してタスク定義と関連要件を生成し、多様で高品質な指示データを生成します。ディスクリミネーター段階では、指示インスタンスの品質を評価する基準を確立し、指示データの生成と評価の包括的なアプローチを作り出します。

実証研究では、WaveCoderはHumanEvalとMBPPの2つのコード生成ベンチマークで評価され、20,000未満の指示チューニングデータインスタンスでも他を上回る性能を示しました。特にコード修復とコード要約タスクでの効率性は、指示データ生成とモデルの微調整への重要な貢献を強調しています。

マイクロソフトのCodeOceanとWaveCoderは、コード言語モデルの世界におけるパラダイムシフトを表しています。ソースコードを知的に活用し、堅牢なLLMジェネレーター-ディスクリミネーターフレームワークを実装することで、指示データ生成の課題に成功して対処しました。実証的な検証は、WaveCoderが微調整されたLLMモデルのリーダーとしての地位をさらに固め、様々なコード関連タスクでの性能向上を約束しています。この研究は、コード言語モデルにおける指示チューニングの新たな道を開き、多様で高品質な指示データの重要な役割を強調しています。CodeOceanとWaveCoderの発表により、マイクロソフトは一般化能力の向上への道を切り開き、コード言語処理の分野での大きな前進を示しています。

Trending

モバイルバージョンを終了