Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Szorzásmentes LLM-et futtat CPU-n a FairyFuse — 3,5-szeres gyorsulást ígér

A memória sávszélesség szűk keresztmetszetét orvosolja az új technológia, ami jelentősen felgyorsítja a nagy nyelvi modellek működését a hagyományos processzorokon.

Szorzásmentes LLM-et futtat CPU-n a FairyFuse — 3,5-szeres gyorsulást ígér
Fotó: Sven Finger / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

Új következtetési rendszert fejlesztettek ki kutatók FairyFuse néven, amely szorzásmentes végrehajtást tesz lehetővé a nagy nyelvi modellek (LLM) számára, jelentősen gyorsítva a CPU-alapú platformokon futó modellek működését — derül ki az arXiv-on előnyomtatott formában megjelent tanulmányból.

A nagy nyelvi modelleket egyre gyakrabban telepítik kizárólag CPU-val felszerelt eszközökre, ahol az autoregresszív generálás elsődleges szűk keresztmetszete a memória sávszélessége. A súlyok négy bitre vagy az alá történő kvantálása csökkenti a memóriaterhelést, de a meglévő rendszerek továbbra is dekvantálják a súlyokat és lebegőpontos szorzásokat végeznek.

A számítások új távlatai

A FairyFuse rendszer a ternáris súlyokat ({-1, 0, +1}) használja ki, amelyek a szorzásokat feltételes összeadásokkal, kivonásokkal vagy üres műveletekkel helyettesítik. Ez a megközelítés lehetővé teszi a szorzásmentes végrehajtást a kereskedelmi forgalomban kapható CPU-kon. A rendszer az AVX-512 utasításkészletet használja, nyolc valós értékű al-GEMV réteget olvaszt össze egyetlen ciklusba maszkolt összeadások és kivonások segítségével, teljesen mellőzve a lebegőpontos szorzásokat.

A kutatók szerint a FairyFuse 2,5-3,5-szeres sebességnövekedést ér el a FP16-hoz képest, és 1,5-2-szeres gyorsulást a 4-bites kvantáláshoz képest Intel Sapphire Rapids CPU-kon. Mindeközben a modell minőségét is megőrzi, a FP16 modellek teljesítményét hozza különböző benchmarkokon.

Gyorsulás a hatékonyság felé

A 16-szoros súlytömörítés a memória-intenzív GEMV műveleteket számítási-intenzívvé alakítja, ami jelentős hatékonyságnövelést eredményez. A FairyFuse technológiát az Intel Sapphire Rapids processzorokon tesztelték, ahol a technológia különösen releváns lehet a CPU-alapú eszközökön futó nagy nyelvi modellek hatékonyságának növelésében, 2024-ben várható további fejlesztés.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom