【ダイジェスト】
MITと他の研究者がAIチャットボットのパフォーマンス低下の原因を特定し、大規模な言語モデルのキー・バリューキャッシュに微調整を加えることで解決策を開発した。この方法により、チャットボットはクラッシュや遅延なしに連続した会話を続けることが可能となり、長い会話でも22倍以上の速さで効率的に動作することが示された。この技術は、コピーライティング、編集、コード生成などのタスクにおいて効率的なAIアシスタントを実現する可能性がある。
大規模言語モデルは、トークンをメモリに保存し、新しいテキストを生成するが、キャッシュが大きくなると計算が遅くなり、パフォーマンスが低下する。研究者たちは「スライディングキャッシュ」を使用して古いトークンを削除し、新しいトークンを追加する方法を採用したが、最初のトークンが削除されるとパフォーマンスが急速に低下することがわかった。この問題を「アテンションシンク」と特定し、キャッシュに保持することでモデルのパフォーマンスを維持することができることが発見された。
StreamingLLMは、長時間の会話を可能にし、再計算を使用する他の方法よりも高速に動作する。この技術は、コピーライティング、編集、コード生成などのタスクにおいて効率的なAIアシスタントを実現する可能性があるが、キャッシュに保存されていない単語を覚えることはできないため、今後はキャッシュから削除されたトークンを取得する方法や、モデルが以前の会話を記憶する方法について研究する予定である。StreamingLLMはNVIDIAのTensorRT-LLMに組み込まれており、この研究はMIT-IBM Watson AI Lab、MIT Science Hub、米国国立科学財団から資金提供を受けている。
ニュース解説
MITと他の研究機関のチームが、AIチャットボットが長時間の会話を続ける際に遭遇するパフォーマンスの低下やクラッシュの問題に対する革新的な解決策を開発しました。この新しい技術、StreamingLLMは、大規模言語モデルのキー・バリューキャッシュ(会話の記憶のようなもの)に微調整を加えることで、チャットボットがどれだけのテキストを扱っても遅延やクラッシュなしに連続した会話を続けられるようにします。この方法は、再計算を使用する従来の方法よりも22倍以上高速であり、長い会話を効率的に行うことが可能になります。
この技術の背景には、大規模言語モデルが新しいテキストを生成する際に使用する「アテンションメカニズム」というプロセスがあります。このメカニズムは、会話の中で最近見たテキストに基づいて新しいテキストを書くため、最近のトークンをメモリに保存します。しかし、キャッシュが満杯になると、最初のデータが削除され、モデルのパフォーマンスが急激に低下します。研究チームは、この最初のトークンを「アテンションシンク」としてキャッシュに保持することで、モデルがキャッシュサイズを超えてもパフォーマンスを維持できることを発見しました。
この発見は、AIチャットボットの応用範囲を大幅に広げる可能性を秘めています。例えば、コピーライティング、編集、コード生成などのタスクにおいて、人間のコラボレーターと一日中効率的に対話するAIアシスタントの実現が可能になります。しかし、この技術にはキャッシュに保存されていない単語を覚えることができないという制限もあります。そのため、将来的にはキャッシュから削除されたトークンを取得する方法や、モデルが以前の会話を記憶する方法の研究が求められます。
StreamingLLMの開発は、AI技術の進化において重要な一歩を示しています。この技術は、AIが人間との対話をより自然で、長期間にわたって維持できるようにすることで、AIの応用範囲を広げ、より実用的なAIアシスタントの開発を促進する可能性があります。また、この技術はNVIDIAの大言語モデル最適化ライブラリであるTensorRT-LLMに組み込まれており、その実用性と影響力は今後さらに拡大することが予想されます。
from A new way to let AI chatbots converse all day without crashing.