Frissítve: 18 perce·Ma: 38
Kutatás
AI által generált szöveg

HORIZON teljesítményteszt 3100+ trajektóriával térképezi fel a LLM‑ügynökök hosszú távú hibáit

A kutatók egy LLM‑alapú bírórendszert is bemutattak, amely emberi jelölésekkel ellenőrizve képes automatikusan azonosítani a hibákat.

HORIZON teljesítményteszt 3100+ trajektóriával térképezi fel a LLM‑ügynökök hosszú távú hibáit
Fotó: Possessed Photography / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Az új HORIZON teljesítményteszt a hosszú‑horizontú feladatok hibáinak feltérképezésére szolgál — írja az arXiv. A rendszer a feladatok interdependens lépéseit modellezi, így lehetővé teszi a hibák pontos lokalizálását.

Négy különböző ügynöki domaint vizsgáltak, összesen több mint 3100 trajektóriát gyűjtve a GPT‑5 változatok és a Claude modellek legújabb verzióival. Az adatgyűjtés során minden szekvenciát automatikusan rögzítettek a reprodukálhatóság érdekében.

Az eredmények azt mutatják, hogy a teljesítmény fokozatosan romlik a feladatok hosszával, különösen a több lépést igénylő szekvenciákban. Úgy tűnik, a modell kontextus‑kezelése nem képes fenntartani a releváns információkat a hosszú távú interakciók során.

A hibák tengerében

A teljesítményteszt célja, hogy egységes mérőszámot biztosítson a hosszú‑horizontú hibák összehasonlíthatóságához, így segítve a kutatókat a fejlesztési irányok meghatározását.

Árnyalatok a modellben

A szerzők egy trajektóriára épülő LLM‑as‑a‑Judge folyamatot is bemutattak, amely a hibák automatikus attribúcióját végzi, és emberi annotációval ellenőrizték.

A HORIZON teljesítményteszt a GPT‑5 és a Claude modellek hibáit térképezi fel, 2026 áprilisában jelent meg az arXiv-en, összesen 3100-nál több trajektóriát elemezve.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom