Frissítve: 9 perce·Ma: 57
Kutatás
AI által generált szöveg

A GISTBench bemutatja: 8 nyílt súlyú LLM felmérése felhasználói viselkedés alapján

A GISTBench a felhasználói viselkedés értékeléséhez két új mértékegységet vezet be: az Interest Groundedness (IG) és az Interest Specificity (IS)

A GISTBench bemutatja: 8 nyílt súlyú LLM felmérése felhasználói viselkedés alapján
Fotó: Vitaly Gariev / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

A GISTBench keretében a kutatók egy új teljesítménytesztet mutattak be, amely a felhasználók interakciói alapján értékeli a nagy nyelvi modellek (LLM) megértési képességét. A tesztben nyolc nyílt súlyú LLM szerepel, amelyek 7 milliárd paraméterből állnak. A méréshez két új mértékegység, az Interest Groundedness (IG) és az Interest Specificity (IS) került bevezetésre.

Az IG a precíziót és a visszahívást külön-külön méri, így a modell által kitalált érdeklődési kategóriák hibáit bünteti, miközben jutalmazza a lefedettséget. Az IS pedig a modell által előrejelzett felhasználói profilok egyediségét vizsgálja, csak a verifikált kategóriákra korlátozva. Ezzel a két új mérőszámmal a teljesítményteszt célja, hogy a hagyományos recsys pontosságnál a felhasználói megértésre összpontosítson.

A GISTBenchhez egy szintetikus adathalmaz is tartozik, amely valós felhasználói interakciók alapján készült egy globális rövidformátumú videóplatformról. Az adathalmaz implicit és explicit elköteleződési jeleket, valamint gazdag szöveges leírásokat tartalmaz. A kutatók felmérik az adathalmaz hitelességét felhasználói felmérésekkel.

A teljesítményteszt jelentősége abban rejlik, hogy a recsys rendszerekben gyakran a tételhelyzetek előrejelzése áll a középpontban. A GISTBench azonban a felhasználó személyes érdeklődési szempontjainak felismerését és hitelesítését helyezi előtérbe, ami kritikus a személyre szabott ajánlások hatékonyságához.

Jelenleg a kutatók a GISTBench eredményeit használják, hogy összehasonlítsák a nyílt súlyú LLM-ek teljesítményét a felhasználói megértés terén. A következő lépésben a csapat a teljesítménytesztet tovább bővíti más interakciós típusokkal és a valós idejű visszacsatolás integrálásával.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom