from Splitwise improves GPU usage by splitting LLM inference phases.
Microsoft Researchのチームは、Splitwiseという技術を開発し、大規模言語モデル(LLM)の推論フェーズを分割することでGPUの使用効率を向上させました。LLMの推論には、プロンプトフェーズとトークン生成フェーズの2つの異なるフェーズがあり、これらを別々のマシンで処理することで、ハードウェアの利用率を高めることができます。Splitwiseを使用して設計されたGPUクラスターは、スループットの最大化、コストの削減、電力の削減を目的としています。実際の計算需要に基づいて動的にサイズが変更される混合バッチ処理用のマシンプールも含まれています。この技術は、NVIDIA DGX-A100やDGX-H100などの異なるタイプのGPUを使用してテストされ、スループットを最大化しながらコストと電力を削減することに成功しました。Splitwiseは、Microsoft AzureのvLLMで採用されており、他のフレームワークにも実装可能です。この研究は、ワシントン大学のインターンであるPratyush Patelをはじめ、複数の研究者との協力によって行われました。