HORIZON teljesítményteszt 3100+ trajektóriával térképezi fel a LLM‑ügynökök hosszú távú hibáit
A kutatók egy LLM‑alapú bírórendszert is bemutattak, amely emberi jelölésekkel ellenőrizve képes automatikusan azonosítani a hibákat.

Az új HORIZON teljesítményteszt a hosszú‑horizontú feladatok hibáinak feltérképezésére szolgál — írja az arXiv. A rendszer a feladatok interdependens lépéseit modellezi, így lehetővé teszi a hibák pontos lokalizálását.
Négy különböző ügynöki domaint vizsgáltak, összesen több mint 3100 trajektóriát gyűjtve a GPT‑5 változatok és a Claude modellek legújabb verzióival. Az adatgyűjtés során minden szekvenciát automatikusan rögzítettek a reprodukálhatóság érdekében.
Az eredmények azt mutatják, hogy a teljesítmény fokozatosan romlik a feladatok hosszával, különösen a több lépést igénylő szekvenciákban. Úgy tűnik, a modell kontextus‑kezelése nem képes fenntartani a releváns információkat a hosszú távú interakciók során.
A hibák tengerében
A teljesítményteszt célja, hogy egységes mérőszámot biztosítson a hosszú‑horizontú hibák összehasonlíthatóságához, így segítve a kutatókat a fejlesztési irányok meghatározását.
Árnyalatok a modellben
A szerzők egy trajektóriára épülő LLM‑as‑a‑Judge folyamatot is bemutattak, amely a hibák automatikus attribúcióját végzi, és emberi annotációval ellenőrizték.
A HORIZON teljesítményteszt a GPT‑5 és a Claude modellek hibáit térképezi fel, 2026 áprilisában jelent meg az arXiv-en, összesen 3100-nál több trajektóriát elemezve.