Kutatás2026. máj. 31.frissítve: 07:50

AI-modellek finomhangolása: a maszkok 70%-ban biztosítják a sikert

A Stanford kutatói által kifejlesztett szupermaszk 70%-kal növeli az AI-modellek szerkesztési sikerességét, miközben a memóriaigényt is drasztikusan csökkenti.

Fotó: Jason Leung / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 31.

Megosztás

A Stanford kutatói új módszert dolgoztak ki az AI-modellek finomhangolásának megértésére. A ROME és MEMIT módszerek a MLP-súlyok módosításával frissítenek tényeket a transzformer modellekben, ám eddig főként a kimeneti viselkedésüket vizsgálták. Az új kutatás a szerkesztések belső mechanizmusát tárja fel, és kimutatja, hogy a tényektől függetlenül ugyanazok a súlyok kritikusak a módosítások megtartásához.

A kutatók egy kompakt bináris maszkot képeztek a szerkesztett súlyokon. Ez a maszk a betanító adathalmaz 80%-án, tesztadatokon pedig több mint 70%-ban képes visszafordítani a szerkesztéseket, ami arra utal, hogy a különféle módosítások közös funkcionális szerkezetet osztanak meg. A maszk a későbbi rétegekben jelentkező túlzott figyelem (overattention) kiküszöbölésével éri el ezt a hatást.

Kapcsolódó: Többnyelvű AI-modellek

A maszkolás mélyén

Az eredmények azt mutatják, hogy ez a mechanizmus elengedhetetlen a sikeres szerkesztésekhez. Amikor a kutatók a szerkesztési folyamatba injektálták a maszkot, a sikerességi arány 98%-ról 38%-ra esett vissza. Ez azt jelenti, hogy a maszk nem csupán egy utólagos ellenőrző eszköz, hanem a módosítások létrejöttéhez szükséges.

Kapcsolódó: Hibajavító módszerek

A funkcionális altér feltárása

A felfedezés magyarázatot ad arra is, miért nem terjednek a ROME és MEMIT által végzett változtatások a rokon tényekre: a szerkesztések inkább elnyomják, mintsem felülírják a meglévő tudást. A Stanford kutatói a maszkot a transzformer modellek szerkesztési folyamatába injektálták, és a kísérletek 2024. február 10-én zárultak le.

Kapcsolódó: Hatékony érvelési módszerek

tetszett a cikk? oszd meg →

Megosztás