Új módszer felezi a LLM-ek méretét, betanítás nélkül
A SoLA nevű eljárás a transzformer architektúrájú modellek feed-forward hálózatában (FFN) azonosítja a kulcsfontosságú komponenseket.

A nagyméretű nyelvi modellek (LLM-ek) hatékonyabb és megfizethetőbb karcsúsítására kínál új megoldást a SoLA módszer, amelyhez nincs szükség utólagos betanításra — írja az arXiv preprintje.
A kutatók szerint az eljárás a modern LLM-ek feed-forward hálózatában (FFN) vizsgálja az aktivációs mintázatokat. Ennek alapján képes azonosítani azokat a komponenseket, amelyek kulcsfontosságúak az inferencia szempontjából. A modell ezeket megtartja, míg a többi elemet alacsony rangú dekompozícióval tömöríti.
A SoLA a „soft activation sparsity” és a „low-rank decomposition” technikákat ötvözi. Célja, hogy enyhítse a dekompozícióból eredő információs veszteséget, ezért adaptív, komponens-specifikus alacsony rangú allokációs stratégiát alkalmaz a megfelelő csonkolási pozíciók kijelölésére.
Ezzel a megközelítéssel a SoLA jelentősen csökkentheti a LLM-ek méretét, anélkül, hogy drága poszt-tréningre vagy speciális hardverre lenne szükség. Az arXiv:2604.03258v1 számon elérhető tanulmány részletesen bemutatja a módszer működését.