Kutatás2026. jún. 2.frissítve: 06:50

474 játékkal tesztelik az AI-k érvelését: a Stanford és a Google Robotics új benchmarkja

Az új keretrendszer a feladatok szabályait adva arra kényszeríti a modelleket, hogy maguk szerezzenek információt a környezetből, majd ezek alapján hozzanak döntést.

Fotó: KOBU Agency / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. június 2.

Megosztás

A Stanford és a Google Robotics kutatói új keretrendszert fejlesztettek ki az LLM-ek interaktív érvelési képességeinek mérésére. A módszer a gondolkodást aktív bizonyítékszerzésként és hitalapú frissítésként kezeli. A modellek csak a feladat szabályait kapják meg, majd célzott lekérdezéseket intéznek egy rejtett környezethez, integrálják az idővel szerzett részleges megfigyeléseket, és eldöntik, mikor kell végleges választ benyújtaniuk — írja az ArXiv AI.

A teljesítményteszt 474 futtatható játékból áll, melyeket öt különböző nehézségi szinten tesztelnek. Az értékelés túlmutat az egyszerű sikerességi arányon és az interakciós hatékonyságon. Vizsgálják a modellek kontextuális robusztusságát kontrollált perturbációk alatt, valamint a metakognitív adaptációt ellenőrzött revíziókon és szükségszerűségi ítéleteken keresztül.

Kapcsolódó: LLM-tesztelés

A gondolkodás tükröt tart

A tesztelés során kiderült, hogy a teljesítményteszt rendkívül megkülönböztető: nagy különbségeket mutat nemcsak a sikerességi arányban, hanem az interakciós hatékonyságban is a különböző modellek között. A kutatók azt tapasztalták, hogy a kontextuális perturbációk mérsékelt, de következetes teljesítménycsökkenést okoznak.

Kapcsolódó: AI kockázatok

Árnyalatok a mesterséges intelligenciában

Ezzel szemben az ellenőrzött revíziók és a szükségszerűségi ítéletek sokkal nagyobb mértékű visszaesést eredményeztek a modellek válaszaiban. Ez arra utal, hogy az AI-k nehezen alkalmazkodnak a változó feltételekhez vagy az információk szükségességének megítéléséhez — mutatja a Stanford és a Google Robotics közös tanulmánya a 2024. márciusi kiadásban.

Kapcsolódó: táblázatkezelés

tetszett a cikk? oszd meg →

Megosztás