FinMCP-Bench: Új benchmark érkezett a pénzügyi LLM-ek tesztelésére
A FinMCP-Bench 613 mintát tartalmaz, 10 fő forgatókönyv és 33 alforgatókönyv keretében.

A kutatók a 26‑május 2026‑on publikált arXiv‑cikkükben bemutatták a FinMCP‑Bench nevű benchmarkot, amely 613 mintát tartalmaz 10 fő forgatókönyv és 33 alforgatókönyv keretében. A tesztkészlet 65 valós pénzügyi Model Context Protocol (MCP)‑t (többek között árfolyam‑ és portfóliókezelési modellek) és három típusú példát – egyes, többes és több tételes – foglal magába, hogy a nyelvi modellek különböző szintű komplexitású feladatokon való teljesítményét mérjék.
A benchmark célja, hogy a pénzügyi LLM‑ek real‑world alkalmazásait objektíven értékelje, különösen a tool‑invocation pontosságot és a logikai következtetéseket. A cikk szerint a FinMCP‑Bench egy standardizált, gyakorlati és kihívást jelentő tesztkörnyezetet kínál, amely elősegíti a pénzügyi LLM‑ek kutatásának előrehaladását.
Az eredmények alapján a szerzők számos mainstream LLM‑et vizsgáltak, és konkrét metrikákat javasoltak az eszközhívás pontosságára és a racionális gondolkodásra. A benchmark tehát nem csak mérőeszköz, hanem iránymutató is a pénzügyi LLM‑ek fejlesztésére.
Jelenleg a FinMCP‑Bench még egy új eszköz, de a szerzők a következő hónapokban tervezik a benchmark széleskörű elfogadásának elősegítését, beleértve a nyílt forráskódú implementációk publikálását és a közösségi visszajelzések gyűjtését.