Qwen-Scope: nyílt forráskódú SAE-csomaggal teszi értelmezhetővé a LLM-ek belső működését a Qwen AI
A Qwen-Scope a Qwen3 és Qwen3.5 modellcsaládokra betanított sparse autoencoder (SAE) csomag, amely 7 modellváltozaton keresztül 14 SAE súlycsoportot tartalmaz.

Nyílt forráskódú Sparse AutoEncoder (SAE) csomagot adott ki a Qwen AI, amely Qwen-Scope néven teszi lehetővé a nagyméretű nyelvi modellek (LLM) belső működésének értelmezését és befolyásolását — írja a MarkTechPost.
A Qwen-Scope célja, hogy megoldja azt a problémát, amikor az AI-fejlesztőknek kevés eszközük van annak diagnosztizálására, hogy egy modell miért viselkedik hibásan, például rossz nyelven generál, ismétlődik, vagy elutasít biztonságos kéréseket. A SAE-k a nyers neurális hálózati aktivációkat emberi nyelven értelmezhető fogalmakra fordítják le, így a fejlesztők láthatják, mely belső funkciók felelősek egy-egy viselkedésért.
A fejlesztési folyamatok átalakulása
A Qwen-Scope négy fő területen hoz változást a fejlesztői munkafolyamatokban. Az egyik a inference-time steering, amely lehetővé teszi a modell kimenetének befolyásolását anélkül, hogy a modell súlyait módosítanák. A kutatócsoport bemutatta, hogy egy kínai nyelvű funkció elnyomásával eltávolítható a nem kívánt nyelv keveredése az angol szövegben, vagy egy klasszikus kínai funkció aktiválásával egy történet klasszikus irodalmi stílusban folytatható.
A második alkalmazás a értékelési analízis modellek futtatása nélkül. A Qwen-Scope SAE funkcióaktivációkat használ a teljesítményteszt elemzésére, ami jelentősen csökkenti a számítási és időigényt. A kutatók szerint a funkció redundancia metrika 0,85-ös Spearman rangkorrelációt mutat a teljesítményalapú redundanciával 17 széles körben használt teljesítményteszten, anélkül, hogy egyetlen modellértékelést is futtatnának.
A hatékonyság és a pontosság növelése
A harmadik terület a adatközpontú munkafolyamatok, mint például a toxicitás-osztályozás és a biztonsági adatok szintetizálása. A SAE funkciók könnyű osztályozóként is hatékonyak. A kutatócsoport egy többnyelvű toxicitás-osztályozót épített 13 nyelven, amely angol nyelven 0,90 feletti F1-pontszámot ért el a Qwen3-1.7B és Qwen3-8B modelleken.
A Qwen-Scope 14 csoport SAE súlyt tartalmaz 7 modellváltozaton keresztül, beleértve öt sűrű modellt (Qwen3-1.7B, Qwen3-8B, Qwen3.5-2B, Qwen3.5-9B és Qwen3.5-27B) és két mixture-of-experts (MoE) modellt (Qwen3-30B-A3B és Qwen3.5-35B-A3B). A Qwen3.5-27B modell SAE-jei az instruct változatán lettek betanítva, míg a többi hat modell az alap checkpointokat használja. A Qwen AI a Qwen-Scope csomagot 2024. március 15-én tette elérhetővé.