Frissítve: 14 perce·Ma: 49
Hardver & Infra
AI által generált szöveg

Diszaggregált inferencia: 2-4x-es költségcsökkentés a LLM-ek futtatásánál

Ezt a költségcsökkentést egy olyan új architektúra segítségével lehet elérni, amely szétválasztja a számításigényes és a memóriakorlátos feladatokat, és így hatékonyabban használja ki a rendelkezésre álló erőforrásokat.

Diszaggregált inferencia: 2-4x-es költségcsökkentés a LLM-ek futtatásánál
Fotó: Domaintechnik Ledl.net / Unsplash
Forrás: Towards Data ScienceSzerző: AI Forradalom szerk.
Megosztás

A LLM inferencia két különálló fázisból áll, amelyek eltérő hardverigényűek: a prompt feldolgozása (prefill) számításigényes, míg a tokenek generálása (decode) memóriaigényes — írja a Towards Data Science. A legtöbb ML csapat azonban még nem alkalmazta ezt az architektúrát, pedig 2-4-szeres költségcsökkentést érhetnének el vele.

A hagyományos megközelítés, melyben mindkét fázis ugyanazon a GPU-n fut, rendkívül pazarló. Egy Llama 70B modell inferenciája során egy H100 GPU 92%-os kihasználtságot ér el a prefill fázisban, de harminc milliszekundummal később, a decode fázisban ez az érték 30%-ra zuhan. Ez a hatalmas különbség a kihasználtságban jelentős, felesleges költségeket generál.

Miért problémás a monolitikus architektúra?

A prefill fázis a bemeneti prompt összes tokenjét egyszerre dolgozza fel, ami nagy mátrixszorzásokat igényel, és a GPU tenzormagjait terheli. Ekkor az aritmetikai intenzitás 200-400 művelet/bájt, a kihasználtság pedig 90-95% között mozog. Ezzel szemben a decode fázis tokenenként generál kimenetet, és a KV-cache-ből olvas adatokat. Ekkor a tenzormagok tétlenek, miközben a memória busz telítődik, az aritmetikai intenzitás pedig 60-80 művelet/bájt körüli értékre esik. Az InfoQ 2025 szeptemberi technikai elemzése szerint a prefill 90-95%-os, a decode pedig 20-40%-os kihasználtságot mutatott.

A diszaggregált inferencia szétválasztja ezt a két fázist, és külön GPU-poolokra helyezi őket, amelyeket gyors hálózat köt össze. Így minden hardver a számára optimalizált feladatot végezheti. Az ötlet az UC San Diego Hao AI Labjának 2024-es DistServe című OSDI tanulmányában jelent meg.

Több nagyvállalat és keretrendszer már alkalmazza vagy támogatja ezt a megközelítést. A Perplexity élesben használja, a Meta, a LinkedIn és a Mistral is ezen keresztül szolgálja ki a forgalmat. A NVIDIA egy teljes keretrendszert, a Dynamót építette köré, emellett a vLLM, a SGLang és a TensorRT-LLM is natívan támogatja a diszaggregált inferenciát.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom