Új hierarchikus keretrendszerrel javul a felhasználói perszónák minősége
A módszer a felhasználói cselekvéseket szándék-memóriákká aggregálja, majd ezek klaszterezésével és címkézésével hoz létre több, bizonyítékokon alapuló perszónát.

Egy új hierarchikus keretrendszerrel javítható a felhasználói perszónák minősége és a jövőbeli interakciók előrejelzése – derül ki egy friss ArXiv tanulmányból.
A kutatók szerint a viselkedési naplók értékes jeleket szolgáltatnak a felhasználói modellezéshez, ám gyakran zajosak és különböző szándékok keverednek bennük. Míg a nagyméretű nyelvi modellek (LLM-ek) már képesek értelmezhető, természetes nyelvű perszónákat generálni ezekből a naplókból, az értékelés gyakran a downstream hasznosságra fókuszál, korlátozottan garantálva magának a perszónának a minőségét.
Optimalizált perszóna-képzés
A javasolt keretrendszer a perszóna-indukciót optimalizálási problémaként kezeli, amely a klaszterkohézió, a perszóna-bizonyíték illeszkedés és a perszóna igazságtartalma alapján méri a minőséget. A perszóna-modellt a Direct Preference Optimization (DPO) csoportos kiterjesztésével képzik, amely a megerősítéses tanulásból ismert, és a jutalommodell finomhangolására szolgál.
A nagyméretű szolgáltatási naplókon és két nyilvános adathalmazon végzett kísérletek azt mutatják, hogy a módszer koherensebb, bizonyítékokon alapuló és megbízhatóbb perszónákat hoz létre. Emellett a jövőbeli interakciók előrejelzésében is javulást ér el a modell.