Új módszerrel deríthető ki, hol tanulnak a nyelvi modellek
A Weight Patching technika megmutatja, melyik modellsúly melyik tudáselemet tárolja — áttörés az AI-rendszerek interpretálhatóságában és hibajavításában.

A nyelvi modellek (LLM-ek) egyre összetettebbé válnak, de belső logikájuk gyakran fekete dobozként működik. A mechanikus interpretálhatóság célja, hogy feltárja, mely belső komponensek felelősek a modell viselkedéséért — írja az arXiv:2604.13694v1 számú előnyomtatott tanulmány.
Korábbi kutatások az aktivációs terek lokalizálására és az ok-okozati összefüggések nyomon követésére fókuszáltak. Azonban az aktivációs térben fontosnak tűnő modulok csupán aggregálhatják vagy felerősíthetik a bejövő jeleket, anélkül, hogy a képességet a saját paramétereikben kódolnák.
A nyelvi modellek belső terepe
Ezt a hiányosságot orvosolja a Weight Patching, egy paramétertér-alapú beavatkozási módszer. Célja a forrás-orientált elemzés, melyet párosított, azonos architektúrájú modelleken végeznek. Ezek a modellek abban különböznek, hogy mennyire erősen fejeznek ki egy adott képességet a vizsgált bemenetekre.
A módszer lényege, hogy egy alapmodellbe beültetik egy speciális, adott viselkedésre finomhangolt modell kiválasztott moduljainak súlyait, rögzített bemenet mellett. A kutatók az utasításkövetésen keresztül mutatták be a módszert, egy vektor-horgony alapú viselkedési interfészt alkalmazva, amely közös belső kritériumot biztosít.
A modellbelül vezérlés felfedezése
Ez a technika lehetővé teszi a kutatók számára, hogy forrás-szinten lokalizálják a modell képességeit, azaz pontosan azonosítsák azokat a súlyokat és modulokat, amelyek egy adott viselkedésért felelősek. A Weight Patching így mélyebb betekintést nyújt a LLM-ek működésébe.
A Weight Patching módszerrel a GPT-4 modell fejlesztésénél érhető el a legnagyobb előrelépés 2024-ben.