Maksim Ivanov és csapata bemutatja az Anchor rendszert
Az Anchor nevű új generátor egységes specifikációból hoz létre természetes nyelvű utasításokat, környezeteket és ellenőrzőket, kiküszöbölve a korábbi módszerek hibáit.

Az AI-ügynökök egyre értékesebb, hosszú távú üzleti feladatokat képesek elvégezni, ám a vállalati munkára szánt képzési és értékelési környezetek még mindig küzdenek a valóságosság, az ellenőrizhetőség és a skálázhatóság egyensúlyával. Az új Anchor folyamat ezt a problémát orvosolja — írja az arXiv AI.
A környezet- és feladatlétrehozás gyakran az úgynevezett „artifact drift” hibamódusban szenved: amikor az utasítások, környezetek, orákulumok és ellenőrzők lazán kapcsolt folyamatok révén jönnek létre, gyakran eltérnek abban, hogy mit is kíván meg egy feladat. Ez olyan környezeteket eredményez, amelyek megoldhatatlanok, jutalom-hackelhetők vagy következetlenek.
Az Anchor fényhorizontja
Az Anchor formalizálja az üzleti munkafolyamatok domain-szakértői specifikációit constraint optimization programokká. Egyetlen paraméteres specifikációból a folyamat közösen hozza létre a természetes nyelvű utasítást, a környezeti konfigurációt, a solver-tanúsított alapigazság megoldást és egy állapot-alapú ellenőrzőt. Ezzel a módszerrel a paraméterek módosítása új, kontrollált nehézségű feladatokat eredményez, amelyek konzisztensen tükrözik az eredeti specifikációt.
A kontroll pontjai
Az Anchor-folyamat és az ERP-Bench adathalmaz a Maksim Ivanov és egy másik szerző által jegyzett tanulmányban jelent meg. Mivel mind a négy artefaktum (utasítás, környezet, orákulum, ellenőrző) determinisztikus vetülete ugyanannak a megoldott specifikációnak, az adatkészlet konstrukció révén csökkenti az artifact driftet. Ugyanazok a paraméterek, amelyek egy feladatot definiálnak, annak nehézségét is hangolják, így a folyamat támogatni tud egy ellenőrizhető képzési adat-tantervet az ügynökök betanításához.
Az Anchor-rendszer 200 MB-ot spórol a korábbi módszerekhez képest, miközben a feladatok valóságossága és ellenőrizhetősége javul. Az új folyamat már elérhető a GitHubon, 2024. január 15-én.