AI(人工知能)ニュース

マイクロソフト研究チーム、Splitwise技術でGPU効率革命 – 大規模言語モデルのコストと電力を削減

Microsoft Researchが開発したSplitwiseは、LLMの推論を効率化し、GPU使用を最適化してコストと電力を削減します。

Published

on

from Splitwise improves GPU usage by splitting LLM inference phases.

Microsoft Researchのチームは、Splitwiseという技術を開発し、大規模言語モデル(LLM)の推論フェーズを分割することでGPUの使用効率を向上させました。LLMの推論には、プロンプトフェーズとトークン生成フェーズの2つの異なるフェーズがあり、これらを別々のマシンで処理することで、ハードウェアの利用率を高めることができます。Splitwiseを使用して設計されたGPUクラスターは、スループットの最大化、コストの削減、電力の削減を目的としています。実際の計算需要に基づいて動的にサイズが変更される混合バッチ処理用のマシンプールも含まれています。この技術は、NVIDIA DGX-A100やDGX-H100などの異なるタイプのGPUを使用してテストされ、スループットを最大化しながらコストと電力を削減することに成功しました。Splitwiseは、Microsoft AzureのvLLMで採用されており、他のフレームワークにも実装可能です。この研究は、ワシントン大学のインターンであるPratyush Patelをはじめ、複数の研究者との協力によって行われました。

Trending

モバイルバージョンを終了