474 játékkal tesztelik az AI-k érvelését: a Stanford és a Google Robotics új benchmarkja
Az új keretrendszer a feladatok szabályait adva arra kényszeríti a modelleket, hogy maguk szerezzenek információt a környezetből, majd ezek alapján hozzanak döntést.

A Stanford és a Google Robotics kutatói új keretrendszert fejlesztettek ki a LLM-ek interaktív érvelési képességeinek mérésére. A módszer a gondolkodást aktív bizonyítékszerzésként és hitalapú frissítésként kezeli. A modellek csak a feladat szabályait kapják meg, majd célzott lekérdezéseket intéznek egy rejtett környezethez, integrálják az idővel szerzett részleges megfigyeléseket, és eldöntik, mikor kell végleges választ benyújtaniuk — írja az ArXiv AI.
A teljesítményteszt 474 futtatható játékból áll, melyeket öt különböző nehézségi szinten tesztelnek. Az értékelés túlmutat az egyszerű sikerességi arányon és az interakciós hatékonyságon. Vizsgálják a modellek kontextuális robusztusságát kontrollált perturbációk alatt, valamint a metakognitív adaptációt ellenőrzött revíziókon és szükségszerűségi ítéleteken keresztül.
Kapcsolódó: LLM-tesztelés
A gondolkodás tükröt tart
A tesztelés során kiderült, hogy a teljesítményteszt rendkívül megkülönböztető: nagy különbségeket mutat nemcsak a sikerességi arányban, hanem az interakciós hatékonyságban is a különböző modellek között. A kutatók azt tapasztalták, hogy a kontextuális perturbációk mérsékelt, de következetes teljesítménycsökkenést okoznak.
Kapcsolódó: AI kockázatok
Árnyalatok a mesterséges intelligenciában
Ezzel szemben az ellenőrzött revíziók és a szükségszerűségi ítéletek sokkal nagyobb mértékű visszaesést eredményeztek a modellek válaszaiban. Ez arra utal, hogy az AI-k nehezen alkalmazkodnak a változó feltételekhez vagy az információk szükségességének megítéléséhez — mutatja a Stanford és a Google Robotics közös tanulmánya a 2024. márciusi kiadásban.
Kapcsolódó: táblázatkezelés