Akár 2,22-szeres gyorsulást hoz a Moonshot AI nyílt forráskódú FlashKDA-ja a NVIDIA H20 GPU-kon
A FlashKDA egy nagy teljesítményű, CUTLASS-alapú kernel implementációja a Kimi Delta Attentionnek (KDA), amely MIT licenc alatt érhető el GitHubon.

Jelentős hozzájárulást tett a nyílt forráskódú AI infrastruktúrához a Moonshot AI, amikor kiadta a FlashKDA-t. A FlashKDA 1,72x-2,22x gyorsulást biztosít a flash-linear-attention alapvonalhoz képest a NVIDIA H20 GPU-kon — írja a MarkTechPost.
A FlashKDA a népszerű flash-linear-attention könyvtárba beilleszthető beépülő modulként működik. A Kimi Delta Attention (KDA) a Moonshot AI Kimi Linear modelljének alapvető figyelmi mechanizmusa, amely finomítja a Gated DeltaNet-et egy csatorna-specifikus gating mechanizmussal.
A KDA nem csupán kutatási prototípus. Ez a Kimi Linear, a Moonshot AI nyílt forráskódú hibrid modelljének magja, amely 48 milliárd paraméterrel rendelkezik, ebből 3 milliárd aktivált. A Kimi Linear akár 75%-kal csökkenti a KV cache használatát és akár 6x nagyobb dekódolási átviteli sebességet ér el 1 millió kontextushossz mellett a teljes figyelemhez képest a MarkTechPost szerint.
A FlashKDA a CUTLASS-re épül, amely a NVIDIA nyílt forráskódú CUDA C++ sablonkönyvtára nagy teljesítményű lineáris algebra és egyedi kernelfejlesztés céljából. A könyvtár a SM90-es és újabb architektúrákat célozza, azaz a NVIDIA Hopper architektúráját (H100, H20) és az újabbakat, minimum CUDA 12.9 és PyTorch 2.4 verzióval.
A teljesítményteszt eredmények, amelyek 2026. április 20-án készültek, a flash_kda-t hasonlítják össze a fla_chunk_kda-val (a flash-linear-attention meglévő implementációjával) 8192-es szekvenciahosszon, 128-as head dimenzión és két head szám konfigurációban: H=96 és H=64. A legnagyobb, 2,22-szeres gyorsulást az egységes, változó hosszúságú esetben (seq_lens=1024 × 8) érték el.