Kutatás2026. máj. 27.frissítve: 09:10

GPT-5 mini a legjobb eredményt érte el az új 1 400 fordulós teljesítményteszten

Az új teljesítményteszt 300 vállalati szekciót és 1 400 lekérdezést tartalmaz, hogy tesztelje a többfordulós Text-to-SQL memóriakezelést.

Fotó: Andrew Neel / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 27.

Megosztás

Az EnterpriseMem-Bench 300 szekciót és 1 400 fordulót foglal magába, három vállalati adatforrásból — írja az arXiv.

A memória szerepe a Text-to-SQL-ben

A többfordulós Text-to-SQL a vállalati elemzések gerincét képezi, de a korábbi értékelések túlnyomórészt egylépéses környezetre korlátozódnak, így a valós munkafolyamatok memóriaigénye alulmarad.

Többfordulós kihívások

A teljesítményteszt három domainra épül: BIRD pénzügyi adatok, SEC EDGAR és Northwind. Minden lekérdezéshez determinisztikus ground truth tartozik, és minden lépéshez memória‑kritikus annotációt adtak, hogy mérhető legyen a modell munkamemóriájának szerepe.

Öt csúcskategóriás modell – GPT-5 mini, GPT-5.2, Claude Sonnet 4.5, Claude Sonnet 4.6 és Opus 4.6 – öt különböző memóriaállapotban került tesztelésre.

A tanulmány szerint a stateless többfordulós Text-to-SQL teljesítmény a harmadik fordulóig nullára zuhan, ami azt jelzi, hogy a memóriahiány drámai hatással van a végrehajtási pontosságra. A GPT-5 mini a legjobb teljesítményt nyújtja az EnterpriseMem-Bench teszten, 1 400 forduló alatt.

tetszett a cikk? oszd meg →

Megosztás