Modellek & LLM2026. ápr. 4.frissítve: 23:30

A DeepSeek V3.2 modell 20%-kal jobb teljesítményt nyújt, mint az elődje

A DeepSeek V3.2 modell a nem szabványos ritka figyelmi változatot használ, amelyhez egyedi kódra van szükség — írja az Ahead of AI.

Fotó: Fotó: Immo Wegmann / Unsplash

forrás: Ahead of AI·AI Forradalom szerk.·2026. április 4.

Megosztás

A DeepSeek V3.2 modell fejlesztését a csapat az elmúlt évben folyamatosan végezte, miután a DeepSeek R1 modell megjelenésével a vállalat az egyik legnépszerűbb nyílt súlyú modell lett — írja az Ahead of AI.

A DeepSeek V3 modellhez hasonlóan a V3.2 is rendelkezik egyedi architektúrával, amely a Mixture-of-Experts (MoE) és a Multi-Head Latent Attention (MLA) mechanizmusokat tartalmazza. A MLA egy olyan memória-megtakarítási stratégia, amely jól párosul a KV cachinggel, és amely a kulcs- és értéktensorokat egy alacsonyabb dimenziós térbe compresszálja a KV cache-ben való tárolás előtt.

A DeepSeek V3.2 modell újdonságai

Az új modell a nem szabványos ritka figyelmi változatot használ, amelyhez egyedi kódra van szükség. A V3.2 modell 20%-kal jobb teljesítményt nyújt, mint az elődje, és a GPT-5 és Gemini 3.0 Pro modellekhez hasonló teljesítményt ér el.

A modell fejlesztésének eredményei

A modell fejlesztése során a csapat az elmúlt évben folyamatosan dolgozott, és a V3.2 modell megjelenésével a DeepSeek újra az egyik legnépszerűbb nyílt súlyú modell lett. A modell fejlesztésében a csapatnak sikerült egy olyan modellt létrehozni, amely a legjobb teljesítményt nyújtja a különböző felhasználási esetekben.

A DeepSeek V3.2 modell január 1-jén, a DeepSeek csapata által 20%-os teljesítménynövekedést mutatott be, és a GPT-5 modellhez hasonló eredményeket ért el.

tetszett a cikk? oszd meg →

Megosztás