85-szörös gyorsulást hoz az Apple új MoE-gyorsítótára: 34,7%-kal csökken a TTFT

Új gyorsítótár-kezelési stratégiát dolgoztak ki az Apple kutatói a Mixture-of-Experts (MoE) modellek számára, amely jelentősen, akár 85-szörösére csökkenti az ütközési hibákat a hagyományos LRU (legkevésbé használt) módszerhez képest — derül ki a Duc Hoang, Ajay Jaiswal, Mohammad Samragh Razlighi és Minsik Cho által jegyzett, az ICML konferencián bemutatott tanulmányból.

A SpecMD nevű szabványosított keretrendszer segítségével a kutatók átfogóan vizsgálták a különböző gyorsítótár-politikákat, és megállapították, hogy a MoE szakértői hozzáférési mintázatai nem egyeznek meg az időbeli lokalitás feltételezéseivel, amelyekre a LRU vagy LFU (legkevésbé gyakran használt) algoritmusok épülnek.

A szakértői hozzáférési mintázatok újraértelmezése

A válaszként született a „Least-Stale” nevű kiürítési politika, amely kihasználja a MoE modellek előre jelezhető szakértői hozzáférési mintázatait. Ez az új módszer a kutatók szerint akár 85-szörösére csökkenti az ütközési hibákat a LRU-hoz képest, ami jelentős előrelépést jelent a modell teljesítményében.

A teljesítmény skálázhatósága

A Least-Stale politika révén a kutatók több mint 88%-os találati arányt értek el, miközben az első tokenig eltelt idő (TTFT) akár 34,7%-kal csökkent az OLMoE modellen. Mindez mindössze 5%-os, azaz 0,6 GB VRAM gyorsítótár-kapacitás mellett valósult meg.

A tanulmány az ICML konferencián, 2024. június 5-én került bemutatásra, a SpecMD és a Least-Stale technológiák pedig a Duc Hoang, Ajay Jaiswal, Mohammad Samragh Razlighi és Minsik Cho által jegyzett tanulmányban részletezettek.