A GISTBench bemutatja: 8 nyílt súlyú LLM felmérése felhasználói viselkedés alapján
A GISTBench a felhasználói viselkedés értékeléséhez két új mértékegységet vezet be: az Interest Groundedness (IG) és az Interest Specificity (IS)

A GISTBench keretében a kutatók egy új teljesítménytesztet mutattak be, amely a felhasználók interakciói alapján értékeli a nagy nyelvi modellek (LLM) megértési képességét. A tesztben nyolc nyílt súlyú LLM szerepel, amelyek 7 milliárd paraméterből állnak. A méréshez két új mértékegység, az Interest Groundedness (IG) és az Interest Specificity (IS) került bevezetésre.
Az IG a precíziót és a visszahívást külön-külön méri, így a modell által kitalált érdeklődési kategóriák hibáit bünteti, miközben jutalmazza a lefedettséget. Az IS pedig a modell által előrejelzett felhasználói profilok egyediségét vizsgálja, csak a verifikált kategóriákra korlátozva. Ezzel a két új mérőszámmal a teljesítményteszt célja, hogy a hagyományos recsys pontosságnál a felhasználói megértésre összpontosítson.
A GISTBenchhez egy szintetikus adathalmaz is tartozik, amely valós felhasználói interakciók alapján készült egy globális rövidformátumú videóplatformról. Az adathalmaz implicit és explicit elköteleződési jeleket, valamint gazdag szöveges leírásokat tartalmaz. A kutatók felmérik az adathalmaz hitelességét felhasználói felmérésekkel.
A teljesítményteszt jelentősége abban rejlik, hogy a recsys rendszerekben gyakran a tételhelyzetek előrejelzése áll a középpontban. A GISTBench azonban a felhasználó személyes érdeklődési szempontjainak felismerését és hitelesítését helyezi előtérbe, ami kritikus a személyre szabott ajánlások hatékonyságához.
Jelenleg a kutatók a GISTBench eredményeit használják, hogy összehasonlítsák a nyílt súlyú LLM-ek teljesítményét a felhasználói megértés terén. A következő lépésben a csapat a teljesítménytesztet tovább bővíti más interakciós típusokkal és a valós idejű visszacsatolás integrálásával.