Frissítve: 1 órája·Ma: 4
Modellek & LLM
AI által generált szöveg

FlashQLA 3× gyorsabb a NVIDIA Hopper GPU-ken – nyílt forráskódú

Fejlesztők most integrálhatják a FlashQLA‑t, és akár háromszoros gyorsulást érhetnek el a GDN lineáris figyelmében NVIDIA Hopper GPU-ken.

FlashQLA 3× gyorsabb a NVIDIA Hopper GPU-ken – nyílt forráskódú
Fotó: Mariia Shalabaieva / Unsplash
Forrás: MarkTechPostSzerző: AI Forradalom szerk.
Megosztás

A FlashQLA MIT licenc alatt került kiadásra, a TileLang fordítókeretre építve, és a Qwen3.5‑et, Qwen3.6‑ot használó Gated Delta Network (GDN) lineáris figyelméhez készült — írja a MarkTechPost.

Miért fontos a lineáris figyelem?

A lineáris figyelem csökkenti a számítási komplexitást O(n²)-ről O(n)-ra, így hosszú szekvenciák feldolgozása sokkal olcsóbb, és a Qwen hibrid architektúrájában a GDN rétegek hatékonyan helyettesítik a teljes figyelmet.

Hogyan ér el a FlashQLA gyorsulást?

A FlashQLA előrehaladott mérés szerint akár háromszoros gyorsulást ér el a forward pass‑oknál, és kétszeresét a backward pass‑oknál NVIDIA Hopper GPU-ken — közölte a MarkTechPost.

A gyorsulást három fő innováció hajtja: a GDN‑kapu által vezérelt automatikus intra‑kártya kontextus‑párhuzamosság, a hardver‑barát algebrai átalakítás, valamint a TileLang‑al épített warp‑specifikus kernel‑fúzió.

A FlashQLA már letölthető a GitHubról, a 2026. április 29-i kiadással, és minden Qwen‑modell felhasználója azonnal beépítheti a munkafolyamatába.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom