Modellek & LLM2026. ápr. 29.frissítve: 20:30

FlashQLA 3× gyorsabb az NVIDIA Hopper GPU-ken – nyílt forráskódú

Fejlesztők most integrálhatják a FlashQLA‑t, és akár háromszoros gyorsulást érhetnek el a GDN lineáris figyelmében NVIDIA Hopper GPU-ken.

Fotó: Mariia Shalabaieva / Unsplash

forrás: MarkTechPost·AI Forradalom szerk.·2026. április 29.

Megosztás

A FlashQLA MIT licenc alatt került kiadásra, a TileLang fordítókeretre építve, és a Qwen3.5‑et, Qwen3.6‑ot használó Gated Delta Network (GDN) lineáris figyelméhez készült — írja a MarkTechPost.

Miért fontos a lineáris figyelem?

A lineáris figyelem csökkenti a számítási komplexitást O(n²)-ről O(n)-ra, így hosszú szekvenciák feldolgozása sokkal olcsóbb, és a Qwen hibrid architektúrájában a GDN rétegek hatékonyan helyettesítik a teljes figyelmet.

Hogyan ér el a FlashQLA gyorsulást?

A FlashQLA előrehaladott mérés szerint akár háromszoros gyorsulást ér el a forward pass‑oknál, és kétszeresét a backward pass‑oknál NVIDIA Hopper GPU-ken — közölte a MarkTechPost.

A gyorsulást három fő innováció hajtja: a GDN‑kapu által vezérelt automatikus intra‑kártya kontextus‑párhuzamosság, a hardver‑barát algebrai átalakítás, valamint a TileLang‑al épített warp‑specifikus kernel‑fúzió.

A FlashQLA már letölthető a GitHubról, a 2026. április 29-i kiadással, és minden Qwen‑modell felhasználója azonnal beépítheti a munkafolyamatába.

tetszett a cikk? oszd meg →

Megosztás