Kutatás2026. ápr. 16.frissítve: 07:57

Új módszerrel deríthető ki, hol tanulnak a nyelvi modellek

A Weight Patching technika megmutatja, melyik modellsúly melyik tudáselemet tárolja — áttörés az AI-rendszerek interpretálhatóságában és hibajavításában.

Fotó: Fotó: Bermix Studio / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 16.

Megosztás

A nyelvi modellek (LLM-ek) egyre összetettebbé válnak, de belső logikájuk gyakran fekete dobozként működik. A mechanikus interpretálhatóság célja, hogy feltárja, mely belső komponensek felelősek a modell viselkedéséért — írja az arXiv:2604.13694v1 számú előnyomtatott tanulmány.

Korábbi kutatások az aktivációs terek lokalizálására és az ok-okozati összefüggések nyomon követésére fókuszáltak. Azonban az aktivációs térben fontosnak tűnő modulok csupán aggregálhatják vagy felerősíthetik a bejövő jeleket, anélkül, hogy a képességet a saját paramétereikben kódolnák.

A nyelvi modellek belső terepe

Ezt a hiányosságot orvosolja a Weight Patching, egy paramétertér-alapú beavatkozási módszer. Célja a forrás-orientált elemzés, melyet párosított, azonos architektúrájú modelleken végeznek. Ezek a modellek abban különböznek, hogy mennyire erősen fejeznek ki egy adott képességet a vizsgált bemenetekre.

A módszer lényege, hogy egy alapmodellbe beültetik egy speciális, adott viselkedésre finomhangolt modell kiválasztott moduljainak súlyait, rögzített bemenet mellett. A kutatók az utasításkövetésen keresztül mutatták be a módszert, egy vektor-horgony alapú viselkedési interfészt alkalmazva, amely közös belső kritériumot biztosít.

A modellbelül vezérlés felfedezése

Ez a technika lehetővé teszi a kutatók számára, hogy forrás-szinten lokalizálják a modell képességeit, azaz pontosan azonosítsák azokat a súlyokat és modulokat, amelyek egy adott viselkedésért felelősek. A Weight Patching így mélyebb betekintést nyújt a LLM-ek működésébe.

A Weight Patching módszerrel a GPT-4 modell fejlesztésénél érhető el a legnagyobb előrelépés 2024-ben.

tetszett a cikk? oszd meg →

Megosztás