from Multiple AI models help robots execute complex plans more transparently.
MITのImprobable AI Labが開発した「Compositional Foundation Models for Hierarchical Planning(HiP)」は、ロボットが家庭や建設、製造のタスクを効率的に計画し実行するためのマルチモーダルフレームワークです。このシステムは、言語、視覚、行動データを組み合わせた3つの基礎モデルを用いており、それぞれが協力して複雑な計画を実行します。HiPは、データをペアでトレーニングする必要がなく、透明な推論プロセスを提供します。さまざまなタスクに対応可能で、CSAILチームによるテストでは他のフレームワークと比較して優れた性能を示しました。HiPは新しい情報に適応し、状況に応じて計画を調整する能力を持っています。
HiPの計画プロセスは階層的で、大規模な言語モデルが抽象的なタスク計画を、ビデオモデルが物理的な情報を取り入れた観察軌跡計画を、そして一人称映像モデルがロボットの周囲の状況に基づいてアクションを推測する役割を果たします。この階層的アプローチにより、ロボットは長期目標に向けた各タスクを効果的に実行できます。
HiPの将来性については、現在は高品質なビデオ基礎モデルの不足が課題ですが、これが改善されれば性能がさらに向上すると期待されています。また、既存の基礎モデルとの組み合わせや、タッチや音を処理するモデルとの統合により、より洗練された計画が可能になるでしょう。これにより、ロボットは家庭や工場、建設現場でのタスクにおいて、より効果的な意思決定を支援することが期待されます。