ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 07:10

GPT-5 mini a legjobb eredményt érte el az új 1 400 fordulós teljesítményteszten

Az új teljesítményteszt 300 vállalati szekciót és 1 400 lekérdezést tartalmaz, hogy tesztelje a többfordulós Text-to-SQL memóriakezelést.

GPT-5 mini a legjobb eredményt érte el az új 1 400 fordulós teljesítményteszten
Fotó: Fotó: Andrew Neel / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

Az EnterpriseMem-Bench 300 szekciót és 1 400 fordulót foglal magába, három vállalati adatforrásból — írja az arXiv.

A memória szerepe a Text-to-SQL-ben

A többfordulós Text-to-SQL a vállalati elemzések gerincét képezi, de a korábbi értékelések túlnyomórészt egylépéses környezetre korlátozódnak, így a valós munkafolyamatok memóriaigénye alulmarad.

Többfordulós kihívások

A teljesítményteszt három domainra épül: BIRD pénzügyi adatok, SEC EDGAR és Northwind. Minden lekérdezéshez determinisztikus ground truth tartozik, és minden lépéshez memória‑kritikus annotációt adtak, hogy mérhető legyen a modell munkamemóriájának szerepe.

Öt csúcskategóriás modell – GPT-5 mini, GPT-5.2, Claude Sonnet 4.5, Claude Sonnet 4.6 és Opus 4.6 – öt különböző memóriaállapotban került tesztelésre.

A tanulmány szerint a stateless többfordulós Text-to-SQL teljesítmény a harmadik fordulóig nullára zuhan, ami azt jelzi, hogy a memóriahiány drámai hatással van a végrehajtási pontosságra. A GPT-5 mini a legjobb teljesítményt nyújtja az EnterpriseMem-Bench teszten, 1 400 forduló alatt.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom