Új keretrendszer 300 szituációval térképezi a LLM-ek kulturális értékeit
A preprint szerzői egy olyan keretrendszert mutatnak be, amely a World Values Survey helyett 300 szituációs dilemmát alkalmaz a LLM-ek rejtett kulturális dimenzióinak feltérképezésére.

Homogenizált kulturális nézeteket tükröznek a LLM-ek — írja az arXiv.
A hagyományos közvetlen kérdezés a World Values Survey (WVS) során gyakran csak semleges vagy biztonsági okokból megtagadott válaszokat eredményez, mert a modellek nem tudják elérni a rejtett kulturális mélységet.
Kulturális mélységek feltárása
Az új keretrendszer a felületet a felületes kérdések helyett szituációs viselkedésvizsgálatra cseréli, és 300 helyzetből származó token‑valószínűségeket von ki, hogy feltérképezze a modellek latens kulturális koordinátáit.
Modellaktivációk irányítása
Az aktivációs irányítás (activation steering) technikával a kutatók a modell előrehaladó lépése során módosítják a belső aktivációkat, anélkül hogy újra betanítanák a rendszert.
Úgy tűnik, hogy jelentős változatosságot találtak a különböző LLM-ek alkalmazkodóképességében, és felfedezték a latent entanglement jelenséget, amelyben egy kulturális dimenzió mentén végzett beavatkozás hatással van másokra.
A kutatók a vizsgálat során az arXiv szerint 2024. március 15-én tették közzé a tanulmányt.