10% neuron eltávolítása is összeomlasztja a specializált LLM-eket — írja az ArXiv
A kutatók matematikai érvelésre és kódgenerálásra specializált nyelvi modelleken vizsgálták a neuronritkítás hatását, megerősítve a feladat-specifikus neuronok létét és kritikus szerepét.

A neuronritkítás széles körben elterjedt módszer a nagy nyelvi modellek (LLM) számítási költségeinek és paraméterigényének csökkentésére, ám eddig tisztázatlan volt, hogy a neuronok egyformán hozzájárulnak-e a feladat-specifikus modellek teljesítményéhez — írja az ArXiv NLP tanulmánya.
A kutatók szisztematikus ritkítási vizsgálattal tártak fel empirikus bizonyítékokat a feladat-specifikus neuronok létezésére és fontosságára. Ehhez matematikai érvelésre és kódgenerálásra specializált LLM-eket használtak.
Egy aktiváció-alapú szelektivitási metrikát vezettek be, amellyel azonosították azokat a neuronokat, amelyek alig járultak hozzá a célfeladat teljesítményéhez. Ezeket eltávolították, miközben megőrizték a célfeladat pontosságát. Az aktiváció-alapú szelektív ritkítást összehasonlították a véletlenszerű ritkítással, és az előbbi módszer konzisztensen jobban teljesített, ami a szelektivitás szisztematikus előnyét mutatja.
A fordított ritkítási kísérletek rávilágítottak, hogy a rendkívül feladat-specifikus neuronok egy kis részének – körülbelül 10%-ának – eltávolítása is teljesítmény-összeomlást okoz a modellekben. Ez a jelenség, amelyet „modell összeomlásnak” neveznek, azt sugallja, hogy a specializált LLM-ek kritikus kapacitásukat gyorsabban vesztik el a ritkítás növelésével, ami nagyobb teljesítményvesztéshez vezet.