Hardverre optimalizálja a LLM-dekódolást a GQLA – H100 és H20 GPU-kon is gyorsabb
A Group-Query Latent Attention (GQLA) minimális módosítással két, algebrailag ekvivalens dekódolási utat tesz elérhetővé ugyanazokon a paramétereken, újraoktatás nélkül.

Hardverre optimalizált nagyméretű nyelvi modell (LLM) dekódolást tesz lehetővé a Group-Query Latent Attention (GQLA) — írja az ArXiv-en megjelent kutatás. A fejlesztés a DeepSeek-V2/V3 által használt Multi-head Latent Attention (MLA) továbbfejlesztése, amely a H100 GPU-k teljesítményét már eddig is szinte tökéletesen kihasználta.
A MLA-módszer azonban egyetlen dekódolási utat biztosít, amely a MQA (Multi-Query Attention) formájában köti össze a hatékony következtetést a H100-osztályú számítási-sávszélességi arányokkal. Ez korlátozza a tenzor-parallelizációt a head-tengely mentén, és nem hoz Multi-Token Prediction (MTP) előnyt az olyan, exportkorlátozás alá eső, hétköznapi GPU-kon, mint a H20.
A dekódolás új útjai
A GQLA ezzel szemben egy per-csoport bővített gyorsítótárral rendelkező GQA (Group-Query Attention) utat is kínál. A futtatókörnyezet automatikusan kiválasztja a cél hardverhez illeszkedő utat, így nincs szükség újraoktatásra vagy egyedi kernelekre. Egyetlen GQLA súlykészlet képes kihasználni mind a H100 (MQA-absorb, s_q=1), mind a H20 (GQA) GPU-k teljesítményét.
Gyorsuló dekódolás
A GQLA tehát egyetlen súlykészlettel képes a H100 és H20 GPU-k teljesítménykorlátjait is elérni, jelentősen növelve a rugalmasságot és a hatékonyságot a különböző hardvereken történő LLM-dekódolás során. A GQLA fejlesztése 2024. március 15-én került bemutatásra, a NVIDIA H100 és H20 GPU-kon végzett tesztek során.