Gyorsabb MoE LLM-ek az Apple Siliconon – új motor tehermentesíti a CPU-t

Az Apple Silicon chipekben található neurális feldolgozó egységet kihasználó NPUMoE motorral akár 4-szer gyorsabban futnak a MoE modellek. A fejlesztés az Apple Neural Engine kihasználásával érte el a gyorsulást.

Fotó: BoliviaInteligente / Unsplash

Forrás: ArXiv ML•Szerző: AI Forradalom szerk.•2026. április 22.

Megosztás

Az Apple Silicon chipekben található Apple Neural Engine (ANE) nevű dedikált neurális feldolgozó egység (NPU) kihasználására dolgozott ki egy futásidejű következtetési motort az arXiv-n megjelent tanulmány szerint.

A Mixture-of-Experts (MoE) LLM-ek a ritka aktiválás révén javítják a következtetési hatékonyságot, azonban a NPU-k számára eddig kihívást jelentettek. A problémát az előre nem látható szakértői útválasztás, az irreguláris operátorok (például a top-k vagy a scatter/gather) és a sok kis szakértői kernel indításával járó jelentős diszpécser- és szinkronizációs többletterhelés okozta.

A NPU-kat eredetileg arra tervezték, hogy az AI számításokat tehermentesítsék a CPU-ról és a GPU-ról. A NPUMoE célja, hogy ezt a tehermentesítést lehetővé tegye a MoE következtetések, különösen az előtöltési (prefill) fázis során, amikor a hosszú kontextusú feladatok jelentős rendszererőforrásokat emésztenek fel.

A kutatók által bemutatott NPUMoE egy olyan futásidejű következtetési motor, amely az Apple Siliconon gyorsítja a MoE végrehajtását. A sűrű, statikus számításokat a NPU-ra terheli, miközben fenntartja a CPU/GPU tartalék útvonalat a MoE következtetésekhez.

A tanulmány az arXiv:2604.18788v1 azonosító alatt érhető el, előnyomtatott formában.