Frissítve: 2 órája·Ma: 3
Kutatás
AI által generált szöveg

Gyorsabb MoE LLM-ek az Apple Siliconon – új motor tehermentesíti a CPU-t

Az Apple Silicon chipekben található neurális feldolgozó egységet kihasználó NPUMoE motorral akár 4-szer gyorsabban futnak a MoE modellek. A fejlesztés az Apple Neural Engine kihasználásával érte el a gyorsulást.

Gyorsabb MoE LLM-ek az Apple Siliconon – új motor tehermentesíti a CPU-t
Fotó: BoliviaInteligente / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

Az Apple Silicon chipekben található Apple Neural Engine (ANE) nevű dedikált neurális feldolgozó egység (NPU) kihasználására dolgozott ki egy futásidejű következtetési motort az arXiv-n megjelent tanulmány szerint.

A Mixture-of-Experts (MoE) LLM-ek a ritka aktiválás révén javítják a következtetési hatékonyságot, azonban a NPU-k számára eddig kihívást jelentettek. A problémát az előre nem látható szakértői útválasztás, az irreguláris operátorok (például a top-k vagy a scatter/gather) és a sok kis szakértői kernel indításával járó jelentős diszpécser- és szinkronizációs többletterhelés okozta.

A NPU-kat eredetileg arra tervezték, hogy az AI számításokat tehermentesítsék a CPU-ról és a GPU-ról. A NPUMoE célja, hogy ezt a tehermentesítést lehetővé tegye a MoE következtetések, különösen az előtöltési (prefill) fázis során, amikor a hosszú kontextusú feladatok jelentős rendszererőforrásokat emésztenek fel.

A kutatók által bemutatott NPUMoE egy olyan futásidejű következtetési motor, amely az Apple Siliconon gyorsítja a MoE végrehajtását. A sűrű, statikus számításokat a NPU-ra terheli, miközben fenntartja a CPU/GPU tartalék útvonalat a MoE következtetésekhez.

A tanulmány az arXiv:2604.18788v1 azonosító alatt érhető el, előnyomtatott formában.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom