GPT-5 mini a legjobb eredményt érte el az új 1 400 fordulós teljesítményteszten
Az új teljesítményteszt 300 vállalati szekciót és 1 400 lekérdezést tartalmaz, hogy tesztelje a többfordulós Text-to-SQL memóriakezelést.

Az EnterpriseMem-Bench 300 szekciót és 1 400 fordulót foglal magába, három vállalati adatforrásból — írja az arXiv.
A memória szerepe a Text-to-SQL-ben
A többfordulós Text-to-SQL a vállalati elemzések gerincét képezi, de a korábbi értékelések túlnyomórészt egylépéses környezetre korlátozódnak, így a valós munkafolyamatok memóriaigénye alulmarad.
Többfordulós kihívások
A teljesítményteszt három domainra épül: BIRD pénzügyi adatok, SEC EDGAR és Northwind. Minden lekérdezéshez determinisztikus ground truth tartozik, és minden lépéshez memória‑kritikus annotációt adtak, hogy mérhető legyen a modell munkamemóriájának szerepe.
Öt csúcskategóriás modell – GPT-5 mini, GPT-5.2, Claude Sonnet 4.5, Claude Sonnet 4.6 és Opus 4.6 – öt különböző memóriaállapotban került tesztelésre.
A tanulmány szerint a stateless többfordulós Text-to-SQL teljesítmény a harmadik fordulóig nullára zuhan, ami azt jelzi, hogy a memóriahiány drámai hatással van a végrehajtási pontosságra. A GPT-5 mini a legjobb teljesítményt nyújtja az EnterpriseMem-Bench teszten, 1 400 forduló alatt.