Kutatás2026. máj. 4.frissítve: 06:30

AgentFloor: Kisebb nyílt forráskódú modellek is felveszik a versenyt a GPT-5-tel az ügynökfeladatokban

Egy új teljesítményteszt, az AgentFloor, 16 nyílt forráskódú modellt vizsgált, 0,27 milliárdtól 32 milliárd paraméterig, és meglepő eredményeket hozott a GPT-5-höz képest.

Fotó: Ant Rozetsky / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 4.

Megosztás

A termelési célú ügynökrendszerek egy felhasználói kérésre számos modellhívást indítanak, melyek többsége rövid, strukturált és rutinszerű. Ez felveti a gyakorlati útválasztás kérdését: az ügynök-munkafolyamatok mely részei igényelnek valóban nagy, élvonalbeli intelligenciát, és melyeket kezelhetnek kisebb modellek? Erre a kérdésre kereste a választ az ArXiv AI kutatása.

Az AgentFloor egy determinisztikus, 30 feladatból álló teljesítményteszt, amely egy hatlépcsős képességi létrán keresztül méri a modellek teljesítményét. Ez magában foglalja az utasításkövetést, az eszközhasználatot, a többlépéses koordinációt és a hosszú távú tervezést állandó korlátok mellett. A kutatók 16 nyílt forráskódú modellt értékeltek, 0,27 milliárdtól 32 milliárd paraméterig, valamint a GPT-5-öt, összesen 16 542 futtatás során.

Az eredmények egyértelmű határt mutatnak a modell szükségességét illetően. Kisebb és közepes méretű nyílt forráskódú modellek már elegendőek az ügynök-munkafolyamatokat uraló rövid távú, strukturált eszközhasználati feladatok nagy részéhez. Összességében a legerősebb nyílt forráskódú modell megegyezik a GPT-5 teljesítményével az AgentFloor teljesítményteszten.

tetszett a cikk? oszd meg →

Megosztás