Kutatás2026. márc. 28.frissítve: 01:05

A hálózati metszés hatékonysága a reprezentáció hierarchiájától függ

Shwai He és munkatársai szerint a hálózati metszés hatékonysága a reprezentáció hierarchiájától függ, és az embedding és logit terek reprezentációi ellenállnak a metszés okozta zavaroknak.

Fotó: Growtika / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. március 28.

Megosztás

Shwai He és kollégái a 2026 márciusi arXiv publikációjukban, "Demystifying When Pruning Works via Representation Hierarchies", megmutatták, hogy a hálózati metszés hatékonysága a modell reprezentációs hierarchiájától függ. A kutatók három szakaszt különböztettek meg a nyelvi modellek belső számításában: az embedding (rejtett) tér, a logit (elő-softmax) tér és a probability (post-softmax) tér. A tanulmány szerint a metszés okozta zavarok az embedding és a logit területeken nagy részt megtartanak, de a logit–probability konverzió során a nemlineáris átalakítás fokozza a szórásokat, ami időben halmozódik és jelentős romlást eredményez a generatív feladatokban.

Miért fontos ez? A hálózati metszés (pruning) a modellméret csökkentése és a futási idő lerövidítése céljából használatos, de gyakran a generatív alkalmazásokban (pl. szövegírás) a pontosság romlik. He és csapata rámutatott, hogy a nemgeneratív feladatok, mint a keresés vagy a többválasztós kérdések, szemben a metszéssel jól működnek, mert a token valószínűségi alrendszer stabil marad. Így a kutatók gyakorlati útmutatót kínálnak a metszés alkalmazására, figyelembe véve a feladat típusát.

A technikai részletek alapján a kutatók a reprezentációs hasonlóságot mérik a metszett és az eredeti modell kimenetei között. A 13. ábrán látható, hogy a Wanda pruning, amely a réteg szintű sűrűségi szintre fókuszál, hasonló trendet mutat, mint a réteg levágása. A MLP rétegek különösen erős reprezentációs hasonlóságot érnek el a belső metszés után, ami a metszés stratégiájától függő különbségeket tükrözi.

Az eredmények szerint a logit–probability konverzió során a szórás fokozódik, ami a generatív folyamatok során a hibák halmozódásához vezet. Ez magyarázza, miért veszítnek a metszett modellek a szövegkészítésben, míg a kategóriális token valószínűségi subspace és az embedding tér stabilitása lehetővé teszi a sikeres metszést a nemgeneratív feladatokban.

Jövőbeli irány: a csapat a kódot és a részletes eredményeket a https://github.com/xxxx/xxxx címen teszi elérhetővé. A kutatók arra ösztönzik a közösséget, hogy a metszés alkalmazásakor vegyék figyelembe a reprezentációs hierarchiát, és a generatív feladatokhoz külön metszési stratégiákat dolgozzanak ki. A következő napokban várható, hogy a cikk megjelenik a Journal of Machine Learning Research-ban, ahol részletesebb összehasonlítások és új metszési algoritmusok kerülnek bemutatásra.

tetszett a cikk? oszd meg →

Megosztás