A MetaClaw keretrendszer a Google naptárad alapján tanítja az AI ügynököket
A kutatók szerint a MetaClaw keretrendszerrel felszerelt Kimi-K2.5 modell pontossága akár 32 százalékkal is nőhet.

A kutatók az UNC-Chapel Hill, Carnegie Mellon, UC Santa Cruz és UC Berkeley csapata egy új MetaClaw nevű keretrendszerrel jelentek meg, amely a Google naptár alapján határozza meg az AI‑ügynökök képzési ablakait. A Kimi‑K2.5 modell, amely a MetaClaw segítségével fut, pontossága a tesztek során akár 32 %-kal nőtt, míg a teljes rendszerrel a pontosság 21,4 %-ról 40,6 %-ra emelkedett – majd közelítve GPT‑5.2 41,1 %-os szintjét.
A MetaClaw lényege, hogy az ügynök saját hibáiból tanul, miközben működik. Ha egy feladatot hibásan hajt végre, egy külső nyelvi modell kinyer egy szűkített viselkedési szabályt, amelyet azonnal a promptba injektál. Ez a szabály nem módosítja a modell súlyait, így a szolgáltatás folyamatosan fut, de az új szabályok már a következő feladatokban is alkalmazódnak.
A súlyok frissítése pedig reinforcement learning és LoRA finomhangolással történik, de csak akkor, amikor a felhasználó nem aktív. A háttérben futó OMLS (Opportunistic Meta‑Learning Scheduler) figyeli a Google naptár eseményeit, a billentyűzet és egér inaktivitását, valamint a beállított alvási időket, és csak a szünetekben indítja a tanulást. A rendszer szigorú határvonalat húz a szabályváltozás előtti és utáni adatok között, így a tréning csak a változtatás után keletkezett hibákat tartalmaz.
A MetaClaw tesztjein a 934 kérdéses, 44 napos szimulált benchmarkon a Kimi‑K2.5 teljesítménye 8,25‑szeresére nőtt a teljesen megoldott feladatok arányában. A szabályok önmagukban 24,8 %-kal csökkentették a lépések ismétlését, míg a finomhangolás nélkül a hibamentes végrehajtás nem volt biztos.
A kutatók jelzik, hogy a szimulációs eredmények nem közvetlenül átvihetők valós környezetbe, mivel a szünetek meghatározása a felhasználó beállításaitól függ. A MetaClaw azonban helyi GPU‑t nem igényel, és felhőalapú proxyarchitektúrán keresztül fut. A kód nyilvánosan elérhető a GitHubon, így a fejlesztők saját rendszereikbe is beépíthetik a keretrendszert. A következő lépések között szerepel a valós felhasználói tesztelés és a különböző LLM‑szolgáltatókhoz való integráció mélyítése.