MemGround: Új teljesítményteszt méri a LLM-ek hosszú távú memóriáját gamifikált környezetben
A MemGround nevű új értékelőkészlet a nyelvi modellek (LLM) hosszú távú memóriáját vizsgálja dinamikus, gamifikált környezetben, szakítva a statikus tesztelési módszerekkel.

A nagyméretű nyelvi modellek (LLM) hosszú távú memóriájának jelenlegi értékelései alapvetően statikusak, a MemGround azonban ezen változtat — írja az ArXiv NLP.
A kutatók szerint a meglévő módszerek a komplex memóriarendszerek sokrétűségét, mint például a dinamikus állapotkövetést és a hierarchikus érvelést, figyelmen kívül hagyják. A MemGround éppen ezért gazdag, gamifikált interaktív forgatókönyvekre épül, hogy szisztematikusan felmérje ezeket a képességeket.
A teljesítményteszt egy háromszintű hierarchikus keretrendszert vezet be. Értékeli a felületi állapotmemóriát (Surface State Memory), az időbeli asszociatív memóriát (Temporal Associative Memory) és az érvelésen alapuló memóriát (Reasoning-Based Memory) speciális interaktív feladatokon keresztül.
A memória kihasználtságának és a viselkedési pályáknak átfogó számszerűsítésére a MemGround egy többdimenziós metrikacsomagot is javasol. Ez magában foglalja a Kérdés-Válasz pontszámot (QA Overall), a feloldott memóriatöredékeket (Memory Fragments Unlocked, MFU) és a helyes sorrendben lévő memóriatöredékeket (Memory Fragments with Correct Order, MFCO), valamint a feltárási trajektóriát (Exploration Traj).