また、マイクロソフトと外部の研究者は「Text Diffusion with Reinforced Conditioning」という論文を発表しました。この研究では、テキスト拡散モデルが言語の離散性を扱う際の課題に直面していることを明らかにし、訓練中の自己条件付けの劣化と訓練とサンプリングの間の不一致という2つの重要な制限を特定しました。これに対応するため、研究者たちは報酬信号で自己条件からの品質向上を直接促進することで劣化を軽減する、強化条件付けを備えた新しいモデル「TREC」を提案しました。このモデルは、拡散プロセスをフルに活用してサンプルを洗練する能力を示しています。
さらに、マイクロソフトとメリーランド大学の研究者は、「PRISE: Learning Temporal Action Abstractions as a Sequence Compression Problem」という論文を通じて、連続制御領域(例えばロボティクス)における時間的アクションの抽象化を誘導するための大規模言語モデル(LLM)の訓練との新たな関連性を提案しました。彼らは、連続アクションの量子化とLLM訓練パイプラインの重要な要素であるバイトペアエンコーディング(BPE)による入力トークン化を組み合わせたアプローチ「PRISE」を導入し、強力な可変時間スパンアクションの抽象化を学習しました。このアプローチは、ロボティックマニピュレーションのデモンストレーションから発見された高レベルスキルが、未知のタスクにおけるマルチタスク模倣学習と少数ショット模倣学習の両方のパフォーマンスを大幅に向上させることを実証しました。
次に、「Text Diffusion with Reinforced Conditioning」という研究では、テキスト生成における新しいアプローチを提案しています。テキスト拡散モデルは、画像や音声の生成においては高い品質を実現していましたが、言語の離散性を扱う際には課題がありました。この研究では、訓練とサンプリングの間の不一致や自己条件付けの劣化といった問題に対処するために、強化条件付けを用いた新しいモデル「TREC」を開発しました。これにより、テキスト生成の精度と自然さが向上し、よりリアルなテキストコンテンツの生成が可能になります。
最後に、「PRISE: Learning Temporal Action Abstractions as a Sequence Compression Problem」という研究では、ロボティクスにおける行動の抽象化学習に新たな視点を提供しています。この研究では、大規模言語モデルの訓練技術を応用し、ロボットが複数のタスクから高レベルのスキルを学習し、それを新しいタスクに適用する方法を開発しました。これにより、ロボットがより効率的に学習し、未知の状況にも柔軟に対応できるようになります。
このケースは単独のものではありません。2024年にJournal of Experimental Criminologyに発表された学術研究でも、Draft Oneを含むAI支援報告書作成システムが実際の時間短縮効果を示さなかったという結果が報告されています。これらの事実は、Axon社の主張と実際の効果に重要な乖離があることを示しています。
技術的には、長文脈での「needle in a haystack(干し草の山の中の針)」的検索・想起の正確性が論点です。Anthropicは内部評価で100%の再現性を謳いますが、これはあくまで社内テストであり、実運用におけるコード異臭検知や設計上のトレードオフ把握など、多層的な推論の持続性は現場検証が不可欠です。ただし、プロジェクト全体像を”丸ごと”見渡せること自体は、ファイル粒度の分割では失われがちだった依存関係と設計意図を保ったまま提案できる余地を広げます。