Emberi irányítású kárelhárítás az AI-ügynökök számára
Az új megközelítés lehetővé teszi, hogy az AI-ügynökök a káros állapotokból optimálisan térjenek vissza a biztonságos működéshez. A kutatás célja, hogy hatékonyan helyreállítsa a károkat, amikor a megelőzés kudarcot vall.

Az ArXiv AI egy új kutatása formalizálta a kárelhárítás problémáját a számítógépes rendszereken futó nyelvi modell (LLM) alapú ügynökök esetében — írja a tanulmány.
A "Human-Guided Harm Recovery for Computer Use Agents" című munka arra fókuszál, hogyan lehet hatékonyan helyreállítani a károkat, amikor a megelőzés kudarcot vall. A kutatók célja, hogy az ügynököket egy káros állapotból biztonságosba irányítsák, összhangban az emberi preferenciákkal.
A preferenciákhoz igazított helyreállítást egy felhasználói tanulmány alapozta meg, amely azonosította a fontos helyreállítási dimenziókat és egy természetes nyelvi rubrikát hozott létre. A 1150 párosított ítéletből álló adathalmaz kontextusfüggő eltolódásokat mutatott az attribútumok fontosságában, például a pragmatikus, célzott stratégiák előnyben részesítését az átfogó, hosszú távú megközelítésekkel szemben.
Ezeket a tanulságokat egy jutalmazási modellben alkalmazták, amely tesztidőben rangsorolja az ügynök által generált több jelölt helyreállítási tervet. A képességértékelés szisztematikus megközelítést igényel.