IntentGrasp: Új teljesítményteszt méri a LLM-ek szándékfelismerését, 20 modell is gyengén teljesít
A 12 különböző domainből származó, 49 nyílt licencű korpuszból összeállított tesztkészlet a beszéd, a beszélgetés és az írás mögötti szándék megértését értékeli.

Új átfogó teljesítménytesztet mutatott be az IntentGrasp, amely a nagyméretű nyelvi modellek (LLM) szándékfelismerő képességét értékeli — derül ki az arXiv-on publikált kutatásból.
A teljesítménytesztet 262 759 példányból álló nagyméretű betanító halmazból és két értékelő készletből építették fel: egy 12 909 tesztesetet tartalmazó „All Set” és egy kiegyensúlyozottabb, kihívást jelentő, 470 esetből álló „Gem Set” készletből. A fejlesztők szerint a pontos szándékfelismerés kulcsfontosságú a hasznos LLM asszisztensek fejlesztéséhez.
A szándékfelismerés törékeny hídjai
Az IntentGrasp 20 LLM-et tesztelt hét modellcsaládból, köztük olyan élvonalbeli modelleket, mint a GPT-5.4, a Gemini-3.1-Pro és a Claude-Opus-4.7. Az eredmények aggasztóak: a modellek a „All Set” készleten 60% alatti, a „Gem Set” készleten pedig 25% alatti pontszámot értek el. Különösen figyelemre méltó, hogy a tesztelt 20 modellből 17 gyengébben teljesített.
A fejlődés útvesztője
A kutatás rávilágít, hogy a jelenlegi élvonalbeli LLM-eknek jelentős fejlődésre van szükségük a felhasználói szándék pontos megértésében, ami alapvető fontosságú a megbízható és hatékony AI-asszisztensek létrehozásához. A GPT-5.4 modell a 2024. március 10-én végzett tesztek során 42,1%-os pontszámot ért el a „Gem Set” készleten.