Frissítve: 2 órája·Ma: 3
Kutatás
AI által generált szöveg

85-szörös gyorsulást hoz az Apple új MoE-gyorsítótára: 34,7%-kal csökken a TTFT

A SpecMD nevű új keretrendszerrel az Apple kutatói bebizonyították, hogy a hagyományos gyorsítótár-politikák nem hatékonyak a MoE modellek ritka szakértői aktiválásánál.

85-szörös gyorsulást hoz az Apple új MoE-gyorsítótára: 34,7%-kal csökken a TTFT
Fotó: Jakub Pabis / Unsplash
Forrás: Apple MLSzerző: AI Forradalom szerk.
Megosztás

Új gyorsítótár-kezelési stratégiát dolgoztak ki az Apple kutatói a Mixture-of-Experts (MoE) modellek számára, amely jelentősen, akár 85-szörösére csökkenti az ütközési hibákat a hagyományos LRU (legkevésbé használt) módszerhez képest — derül ki a Duc Hoang, Ajay Jaiswal, Mohammad Samragh Razlighi és Minsik Cho által jegyzett, az ICML konferencián bemutatott tanulmányból.

A SpecMD nevű szabványosított keretrendszer segítségével a kutatók átfogóan vizsgálták a különböző gyorsítótár-politikákat, és megállapították, hogy a MoE szakértői hozzáférési mintázatai nem egyeznek meg az időbeli lokalitás feltételezéseivel, amelyekre a LRU vagy LFU (legkevésbé gyakran használt) algoritmusok épülnek.

A szakértői hozzáférési mintázatok újraértelmezése

A válaszként született a „Least-Stale” nevű kiürítési politika, amely kihasználja a MoE modellek előre jelezhető szakértői hozzáférési mintázatait. Ez az új módszer a kutatók szerint akár 85-szörösére csökkenti az ütközési hibákat a LRU-hoz képest, ami jelentős előrelépést jelent a modell teljesítményében.

A teljesítmény skálázhatósága

A Least-Stale politika révén a kutatók több mint 88%-os találati arányt értek el, miközben az első tokenig eltelt idő (TTFT) akár 34,7%-kal csökkent az OLMoE modellen. Mindez mindössze 5%-os, azaz 0,6 GB VRAM gyorsítótár-kapacitás mellett valósult meg.

A tanulmány az ICML konferencián, 2024. június 5-én került bemutatásra, a SpecMD és a Least-Stale technológiák pedig a Duc Hoang, Ajay Jaiswal, Mohammad Samragh Razlighi és Minsik Cho által jegyzett tanulmányban részletezettek.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom