マイクロソフトリサーチは、大規模言語モデル(LLMs)から得られる構造化された知識が、視覚言語モデルのプロンプト学習を改善することを発見しました。この研究成果は、2024年2月27日に発表され、第38回年次AAAI人工知能会議(AAAI-24)で紹介されました。
研究チームは、「言語モデルのための構造化された言語知識を用いた階層的プロンプト学習」という論文で、視覚言語モデルによって生成される画像の質を向上させる新しいアプローチを提案しました。この方法では、画像の説明に関する詳細なグラフを作成し、LLMsの言語知識を活用して、より豊かな画像を生成します。
研究では、階層的プロンプトチューニング(HPT)という新しいプロンプトチューニングフレームワークを導入しました。このフレームワークは、プロンプトの内容を階層的に整理し、視覚言語モデルがプロンプト内の異なる情報レベルを識別できるようにします。これにより、モデルは複雑なクエリを様々なトピックにわたって処理する能力が向上します。
また、関係ガイド付きアテンションモジュールを中心とした方法を採用しています。このモジュールは、グラフ内の要素間の複雑な相互作用を特定し分析するのに役立ちます。さらに、クロスレベル自己注意メカニズムを通じて、異なるエンティティと属性間の相互作用を理解します。
この研究は、視覚言語モデルが写真やイラストなどの視覚メディアの内容をより正確かつ深く記述できるようにする、画像キャプションの向上など、より洗練されたアプリケーションへの道を開くものです。また、テキストから画像を生成する際に、テキストの説明に基づいてより正確で詳細かつ文脈に関連した視覚表現を生成する能力の向上が期待されます。
【ニュース解説】
マイクロソフトリサーチの研究チームが、大規模言語モデル(LLMs)から得られる構造化された知識を活用して、視覚言語モデルのプロンプト学習を改善する新しい手法を開発しました。この手法は、画像の説明を詳細なグラフとして構築し、それを用いてより豊かな画像を生成することが可能になります。この研究は、2024年2月27日に第38回年次AAAI人工知能会議(AAAI-24)で発表されました。
この手法の核心は、画像の各要素(オブジェクト、人物、概念など)とその属性(特徴)、そしてそれらの間の関係を詳細に記述する構造化されたグラフを作成することです。これにより、視覚言語モデルは、単純なテキストのプロンプトでは捉えきれない、画像要素間の複雑な関係性を理解し、よりリッチな画像を生成することができます。
階層的プロンプトチューニング(HPT)という新しいフレームワークを導入することで、プロンプトの内容を階層的に整理し、モデルがプロンプト内の異なる情報レベルを識別しやすくなります。これは、モデルが複雑なクエリを様々なトピックにわたって処理する能力を向上させることに寄与します。
また、関係ガイド付きアテンションモジュールを用いることで、モデルはグラフ内の要素間の複雑な相互作用を特定し分析することができます。クロスレベル自己注意メカニズムを通じて、異なるエンティティと属性間の相互作用を理解し、プロンプト(入力コマンド/質問)の間の関係を複数の抽象レベルで検討することが可能になります。
この研究によって、視覚言語モデルは、写真やイラストなどの視覚メディアの内容をより正確かつ深く記述する能力を向上させることができます。これは、視覚障害を持つユーザーを支援するアプリケーションなど、様々な用途に役立つ可能性があります。さらに、テキストから画像を生成する際に、テキストの説明に基づいてより正確で詳細かつ文脈に関連した視覚表現を生成する能力の向上も期待されます。
この技術の進展は、AIシステムが人間の言語の複雑さをより効果的に解釈するための道を開くことになります。将来的には、基本的な分類タスクを超えて、人々とAIシステム間のより微妙で正確な相互作用を可能にすることが期待されています。
from Structured knowledge from LLMs improves prompt learning for visual language models.