A DeepSeek V3.2 modell 20%-kal jobb teljesítményt nyújt, mint az elődje
A DeepSeek V3.2 modell a nem szabványos ritka figyelmi változatot használ, amelyhez egyedi kódra van szükség — írja az Ahead of AI.

A DeepSeek V3.2 modell fejlesztését a csapat az elmúlt évben folyamatosan végezte, miután a DeepSeek R1 modell megjelenésével a vállalat az egyik legnépszerűbb nyílt súlyú modell lett — írja az Ahead of AI.
A DeepSeek V3 modellhez hasonlóan a V3.2 is rendelkezik egyedi architektúrával, amely a Mixture-of-Experts (MoE) és a Multi-Head Latent Attention (MLA) mechanizmusokat tartalmazza. A MLA egy olyan memória-megtakarítási stratégia, amely jól párosul a KV cachinggel, és amely a kulcs- és értéktensorokat egy alacsonyabb dimenziós térbe compresszálja a KV cache-ben való tárolás előtt.
A DeepSeek V3.2 modell újdonságai
Az új modell a nem szabványos ritka figyelmi változatot használ, amelyhez egyedi kódra van szükség. A V3.2 modell 20%-kal jobb teljesítményt nyújt, mint az elődje, és a GPT-5 és Gemini 3.0 Pro modellekhez hasonló teljesítményt ér el.
A modell fejlesztésének eredményei
A modell fejlesztése során a csapat az elmúlt évben folyamatosan dolgozott, és a V3.2 modell megjelenésével a DeepSeek újra az egyik legnépszerűbb nyílt súlyú modell lett. A modell fejlesztésében a csapatnak sikerült egy olyan modellt létrehozni, amely a legjobb teljesítményt nyújtja a különböző felhasználási esetekben.
A DeepSeek V3.2 modell január 1-jén, a DeepSeek csapata által 20%-os teljesítménynövekedést mutatott be, és a GPT-5 modellhez hasonló eredményeket ért el.