FlashQLA 3× gyorsabb a NVIDIA Hopper GPU-ken – nyílt forráskódú
Fejlesztők most integrálhatják a FlashQLA‑t, és akár háromszoros gyorsulást érhetnek el a GDN lineáris figyelmében NVIDIA Hopper GPU-ken.

A FlashQLA MIT licenc alatt került kiadásra, a TileLang fordítókeretre építve, és a Qwen3.5‑et, Qwen3.6‑ot használó Gated Delta Network (GDN) lineáris figyelméhez készült — írja a MarkTechPost.
Miért fontos a lineáris figyelem?
A lineáris figyelem csökkenti a számítási komplexitást O(n²)-ről O(n)-ra, így hosszú szekvenciák feldolgozása sokkal olcsóbb, és a Qwen hibrid architektúrájában a GDN rétegek hatékonyan helyettesítik a teljes figyelmet.
Hogyan ér el a FlashQLA gyorsulást?
A FlashQLA előrehaladott mérés szerint akár háromszoros gyorsulást ér el a forward pass‑oknál, és kétszeresét a backward pass‑oknál NVIDIA Hopper GPU-ken — közölte a MarkTechPost.
A gyorsulást három fő innováció hajtja: a GDN‑kapu által vezérelt automatikus intra‑kártya kontextus‑párhuzamosság, a hardver‑barát algebrai átalakítás, valamint a TileLang‑al épített warp‑specifikus kernel‑fúzió.
A FlashQLA már letölthető a GitHubról, a 2026. április 29-i kiadással, és minden Qwen‑modell felhasználója azonnal beépítheti a munkafolyamatába.