AgentFloor: Kisebb nyílt forráskódú modellek is felveszik a versenyt a GPT-5-tel az ügynökfeladatokban
Egy új teljesítményteszt, az AgentFloor, 16 nyílt forráskódú modellt vizsgált, 0,27 milliárdtól 32 milliárd paraméterig, és meglepő eredményeket hozott a GPT-5-höz képest.

A termelési célú ügynökrendszerek egy felhasználói kérésre számos modellhívást indítanak, melyek többsége rövid, strukturált és rutinszerű. Ez felveti a gyakorlati útválasztás kérdését: az ügynök-munkafolyamatok mely részei igényelnek valóban nagy, élvonalbeli intelligenciát, és melyeket kezelhetnek kisebb modellek? Erre a kérdésre kereste a választ az ArXiv AI kutatása.
Az AgentFloor egy determinisztikus, 30 feladatból álló teljesítményteszt, amely egy hatlépcsős képességi létrán keresztül méri a modellek teljesítményét. Ez magában foglalja az utasításkövetést, az eszközhasználatot, a többlépéses koordinációt és a hosszú távú tervezést állandó korlátok mellett. A kutatók 16 nyílt forráskódú modellt értékeltek, 0,27 milliárdtól 32 milliárd paraméterig, valamint a GPT-5-öt, összesen 16 542 futtatás során.
Az eredmények egyértelmű határt mutatnak a modell szükségességét illetően. Kisebb és közepes méretű nyílt forráskódú modellek már elegendőek az ügynök-munkafolyamatokat uraló rövid távú, strukturált eszközhasználati feladatok nagy részéhez. Összességében a legerősebb nyílt forráskódú modell megegyezik a GPT-5 teljesítményével az AgentFloor teljesítményteszten.