Kutatás2026. ápr. 24.frissítve: 06:50

Szorzásmentes LLM-et futtat CPU-n a FairyFuse — 3,5-szeres gyorsulást ígér

A memória sávszélesség szűk keresztmetszetét orvosolja az új technológia, ami jelentősen felgyorsítja a nagy nyelvi modellek működését a hagyományos processzorokon.

Fotó: Sven Finger / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. április 24.

Megosztás

Új következtetési rendszert fejlesztettek ki kutatók FairyFuse néven, amely szorzásmentes végrehajtást tesz lehetővé a nagy nyelvi modellek (LLM) számára, jelentősen gyorsítva a CPU-alapú platformokon futó modellek működését — derül ki az arXiv-on előnyomtatott formában megjelent tanulmányból.

A nagy nyelvi modelleket egyre gyakrabban telepítik kizárólag CPU-val felszerelt eszközökre, ahol az autoregresszív generálás elsődleges szűk keresztmetszete a memória sávszélessége. A súlyok négy bitre vagy az alá történő kvantálása csökkenti a memóriaterhelést, de a meglévő rendszerek továbbra is dekvantálják a súlyokat és lebegőpontos szorzásokat végeznek.

A számítások új távlatai

A FairyFuse rendszer a ternáris súlyokat ({-1, 0, +1}) használja ki, amelyek a szorzásokat feltételes összeadásokkal, kivonásokkal vagy üres műveletekkel helyettesítik. Ez a megközelítés lehetővé teszi a szorzásmentes végrehajtást a kereskedelmi forgalomban kapható CPU-kon. A rendszer az AVX-512 utasításkészletet használja, nyolc valós értékű al-GEMV réteget olvaszt össze egyetlen ciklusba maszkolt összeadások és kivonások segítségével, teljesen mellőzve a lebegőpontos szorzásokat.

A kutatók szerint a FairyFuse 2,5-3,5-szeres sebességnövekedést ér el a FP16-hoz képest, és 1,5-2-szeres gyorsulást a 4-bites kvantáláshoz képest Intel Sapphire Rapids CPU-kon. Mindeközben a modell minőségét is megőrzi, a FP16 modellek teljesítményét hozza különböző benchmarkokon.

Gyorsulás a hatékonyság felé

A 16-szoros súlytömörítés a memória-intenzív GEMV műveleteket számítási-intenzívvé alakítja, ami jelentős hatékonyságnövelést eredményez. A FairyFuse technológiát az Intel Sapphire Rapids processzorokon tesztelték, ahol a technológia különösen releváns lehet a CPU-alapú eszközökön futó nagy nyelvi modellek hatékonyságának növelésében, 2024-ben várható további fejlesztés.

tetszett a cikk? oszd meg →

Megosztás