Öntanuló képgeneráló ügynök fejlődik vizuális visszajelzésekkel a GenEvolve-ban

Öntanuló képgeneráló ügynököt mutatott be egy kutatócsoport, amely a GenEvolve nevet kapta. A rendszer a belső generatív képességeket külső erőforrásokkal kombinálja, hogy a változatos és igényes kérésekre is magas minőségű képeket hozzon létre — írja az arXiv-on megjelent tanulmány.

A GenEvolve egy öntanuló keretrendszer, amely a Tool-Orchestrated Visual Experience Distillation (eszközökkel koordinált vizuális tapasztalatok desztillációja) elvén működik. Célja, hogy az ügynök hatékonyabban használja az eszközöket a különböző generálási kihívások során, és önállóan fejlődjön a tapasztalatok alapján.

A rendszer minden generálási kísérletet egy eszközökkel koordinált trajektóriaként modellez. Ennek során az ügynök bizonyítékokat gyűjt, referenciákat választ, generálási készségeket hív meg, majd ezeket egy prompt-referencia programmá komponálja. Ez a megközelítés eltér a legtöbb meglévő ügynök-alapú generálási módszertől.

A GenEvolve nem elsősorban képszintű skaláris jutalmakra támaszkodik, hanem több trajektóriát hasonlít össze ugyanarra a kérésre. A legjobb és legrosszabb eredmények közötti különbségeket strukturált vizuális visszajelzésekké alakítja, ezzel segítve az ügynök fejlődését. A tanulmány az arXiv:2605.21605v1 azonosító alatt érhető el előnyomtatott formában.