Frissítve: 2 órája·Ma: 15
Kutatás
AI által generált szöveg

AgentFloor: Kisebb nyílt forráskódú modellek is felveszik a versenyt a GPT-5-tel az ügynökfeladatokban

Egy új teljesítményteszt, az AgentFloor, 16 nyílt forráskódú modellt vizsgált, 0,27 milliárdtól 32 milliárd paraméterig, és meglepő eredményeket hozott a GPT-5-höz képest.

AgentFloor: Kisebb nyílt forráskódú modellek is felveszik a versenyt a GPT-5-tel az ügynökfeladatokban
Fotó: Akshat Sharma / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

A termelési célú ügynökrendszerek egy felhasználói kérésre számos modellhívást indítanak, melyek többsége rövid, strukturált és rutinszerű. Ez felveti a gyakorlati útválasztás kérdését: az ügynök-munkafolyamatok mely részei igényelnek valóban nagy, élvonalbeli intelligenciát, és melyeket kezelhetnek kisebb modellek? Erre a kérdésre kereste a választ az ArXiv AI kutatása.

Az AgentFloor egy determinisztikus, 30 feladatból álló teljesítményteszt, amely egy hatlépcsős képességi létrán keresztül méri a modellek teljesítményét. Ez magában foglalja az utasításkövetést, az eszközhasználatot, a többlépéses koordinációt és a hosszú távú tervezést állandó korlátok mellett. A kutatók 16 nyílt forráskódú modellt értékeltek, 0,27 milliárdtól 32 milliárd paraméterig, valamint a GPT-5-öt, összesen 16 542 futtatás során.

Az eredmények egyértelmű határt mutatnak a modell szükségességét illetően. Kisebb és közepes méretű nyílt forráskódú modellek már elegendőek az ügynök-munkafolyamatokat uraló rövid távú, strukturált eszközhasználati feladatok nagy részéhez. Összességében a legerősebb nyílt forráskódú modell megegyezik a GPT-5 teljesítményével az AgentFloor teljesítményteszten.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom