Kutatás2026. ápr. 15.frissítve: 06:26

HORIZON teljesítményteszt 3100+ trajektóriával térképezi fel a LLM‑ügynökök hosszú távú hibáit

A kutatók egy LLM‑alapú bírórendszert is bemutattak, amely emberi jelölésekkel ellenőrizve képes automatikusan azonosítani a hibákat.

Fotó: Fotó: Possessed Photography / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 15.

Megosztás

Az új HORIZON teljesítményteszt a hosszú‑horizontú feladatok hibáinak feltérképezésére szolgál — írja az arXiv. A rendszer a feladatok interdependens lépéseit modellezi, így lehetővé teszi a hibák pontos lokalizálását.

Négy különböző ügynöki domaint vizsgáltak, összesen több mint 3100 trajektóriát gyűjtve a GPT‑5 változatok és a Claude modellek legújabb verzióival. Az adatgyűjtés során minden szekvenciát automatikusan rögzítettek a reprodukálhatóság érdekében.

Az eredmények azt mutatják, hogy a teljesítmény fokozatosan romlik a feladatok hosszával, különösen a több lépést igénylő szekvenciákban. Úgy tűnik, a modell kontextus‑kezelése nem képes fenntartani a releváns információkat a hosszú távú interakciók során.

A hibák tengerében

A teljesítményteszt célja, hogy egységes mérőszámot biztosítson a hosszú‑horizontú hibák összehasonlíthatóságához, így segítve a kutatókat a fejlesztési irányok meghatározását.

Árnyalatok a modellben

A szerzők egy trajektóriára épülő LLM‑as‑a‑Judge folyamatot is bemutattak, amely a hibák automatikus attribúcióját végzi, és emberi annotációval ellenőrizték.

A HORIZON teljesítményteszt a GPT‑5 és a Claude modellek hibáit térképezi fel, 2026 áprilisában jelent meg az arXiv-en, összesen 3100-nál több trajektóriát elemezve.

tetszett a cikk? oszd meg →

Megosztás