DeepSeek V3: új figyelem és MoE-rétegekkel javítja a LLM-hatékonyságot
A DeepSeek V3 architektúra két kulcsfontosságú technológiát vezet be: az új figyelmi mechanizmust és a MoE-rétegeket, amelyek jelentősen javítják a számítási hatékonyságot.

Hét évvel az eredeti GPT architektúra megjelenése után a LLM-ek alapvető felépítése meglepően hasonló maradt, még a DeepSeek V3 és a Llama 4 modellek esetében is. Bár a pozicionális beágyazások fejlődtek, és a Multi-Head Attention helyét nagyrészt a Grouped-Query Attention (GQA) vette át, a mélyreható változások ritkák — írja Sebastian Raschka, PhD, az Ahead of AI blogon.
A LLM-ek összehasonlítása rendkívül nehéz a változó adathalmazok, betanítási technikák és hiperparaméterek miatt. Raschka szerint azonban érdemes megvizsgálni az architektúrák szerkezeti változásait, hogy megértsük, min dolgoznak a LLM fejlesztők 2025-ben. A DeepSeek V3, amelyet 2024 decemberében mutattak be, de 2025 januárjában, a DeepSeek R1 kiadása után vált széles körben ismertté, két kulcsfontosságú architekturális újítást vezetett be: a Multi-Head Latent Attention (MLA) és a Mixture-of-Experts (MoE) technológiákat.
Multi-Head Latent Attention (MLA)
A Grouped-Query Attention (GQA) az elmúlt években a Multi-Head Attention (MHA) új szabványos alternatívájává vált, mivel számítási és paraméterhatékonyabb. A GQA a memóriahasználat csökkentése érdekében több fejet csoportosít, hogy ugyanazokat a kulcs- és értékprojekciókat osszák meg. Ez kevesebb kulcs- és érték-számítást eredményez, ami alacsonyabb memóriahasználatot és jobb hatékonyságot jelent. A MLA ezzel szemben a kulcs- és érték-tenzorokat alacsonyabb dimenziós térbe tömöríti, mielőtt a KV-gyorsítótárba tárolná őket. Ezt követően a tömörített tenzorokat visszaállítják eredeti méretükre az inferencia során. Bár ez egy extra mátrixszorzást igényel, jelentősen csökkenti a memóriahasználatot.
A DeepSeek V2-ben már használt MLA a DeepSeek V3-ban is kulcsszerepet kapott. Ablációs tanulmányok szerint a MLA jobb modellezési teljesítményt nyújt, mint a MHA, míg a GQA rosszabbul teljesít, ezért a DeepSeek csapata a MLA-t választotta. Ez a megoldás nemcsak a KV-gyorsítótár memóriahasználatát csökkenti, hanem a modellezési teljesítményt is javítja.
Mixture-of-Experts (MoE)
A DeepSeek V3 másik jelentős architekturális komponense a Mixture-of-Experts (MoE) rétegek alkalmazása. Bár a MoE nem új találmány, idén ismét fellendült a használata, és számos más modern architektúra is átveszi. A MoE lényege, hogy a transzformer blokkban lévő minden FeedForward modult több „szakértői” réteggel helyettesít, ahol mindegyik szakértői réteg szintén egy FeedForward modul. Ez jelentősen növeli a modell teljes paraméterszámát, de csak a releváns szakértők aktiválódnak az adott bemenet feldolgozásához, ami növeli a hatékonyságot.
A DeepSeek V3 esetében a transzformer blokkban lévő FeedForward modulokat 61 alkalommal ismétlik meg, és ezeket cserélik le MoE rétegekre. Ez a megközelítés lehetővé teszi a modell számára, hogy nagyobb paraméterszámmal dolgozzon, miközben csak a szükséges számításokat végzi el, optimalizálva a teljesítményt és a hatékonyságot a DeepSeek R1-ben.