Kutatás2026. máj. 12.frissítve: 10:50

IntentGrasp: Új teljesítményteszt méri az LLM-ek szándékfelismerését, 20 modell is gyengén teljesít

A 12 különböző domainből származó, 49 nyílt licencű korpuszból összeállított tesztkészlet a beszéd, a beszélgetés és az írás mögötti szándék megértését értékeli.

Fotó: Trnava University / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 12.

Megosztás

Új átfogó teljesítménytesztet mutatott be az IntentGrasp, amely a nagyméretű nyelvi modellek (LLM) szándékfelismerő képességét értékeli — derül ki az arXiv-on publikált kutatásból.

A teljesítménytesztet 262 759 példányból álló nagyméretű betanító halmazból és két értékelő készletből építették fel: egy 12 909 tesztesetet tartalmazó „All Set” és egy kiegyensúlyozottabb, kihívást jelentő, 470 esetből álló „Gem Set” készletből. A fejlesztők szerint a pontos szándékfelismerés kulcsfontosságú a hasznos LLM asszisztensek fejlesztéséhez.

A szándékfelismerés törékeny hídjai

Az IntentGrasp 20 LLM-et tesztelt hét modellcsaládból, köztük olyan élvonalbeli modelleket, mint a GPT-5.4, a Gemini-3.1-Pro és a Claude-Opus-4.7. Az eredmények aggasztóak: a modellek a „All Set” készleten 60% alatti, a „Gem Set” készleten pedig 25% alatti pontszámot értek el. Különösen figyelemre méltó, hogy a tesztelt 20 modellből 17 gyengébben teljesített.

A fejlődés útvesztője

A kutatás rávilágít, hogy a jelenlegi élvonalbeli LLM-eknek jelentős fejlődésre van szükségük a felhasználói szándék pontos megértésében, ami alapvető fontosságú a megbízható és hatékony AI-asszisztensek létrehozásához. A GPT-5.4 modell a 2024. március 10-én végzett tesztek során 42,1%-os pontszámot ért el a „Gem Set” készleten.

tetszett a cikk? oszd meg →

Megosztás