Az AutoAgent forradalmasítja az ügynökfejlesztést: egy éjszaka alatt a legjobb eredményt érte el
A meta-ügynök egy éjszaka alatt módosította saját harnessét és elérte az első helyet a SpreadsheetBench és a TerminalBench GPT-5 teszten, emberi beavatkozás nélkül.

Az AutoAgent mögött álló fejlesztő, Kevin Gu, a thirdlayer.inc munkatársa, egy olyan megoldást dolgozott ki, amely lehetővé teszi, hogy egy mesterséges intelligencia saját ügynökét fejlessze és optimalizálja egy éjszaka leforgása alatt.
Az AutoAgent egy nyílt forráskódú könyvtár, amely lehetővé teszi, hogy egy mesterséges intelligencia ügynökét autonóm módon fejlessze és optimalizálja. A rendszer egy 24 órás futás alatt elérte az első helyet a SpreadsheetBench és a TerminalBench GPT-5 teszten, emberi beavatkozás nélkül, 96,5%-os és 55,1%-os eredménnyel.
Az AutoAgent működése
Az AutoAgent egy meta-ügynököt használ, amely egy felsőbb szintű mesterséges intelligencia, és amely egy direktívát kap a felhasználótól. A meta-ügynök ezt a direktívát olvassa, majd a agent.py fájlt vizsgálja, amely az ügynök konfigurációját tartalmazza. A meta-ügynök ezután futtatja a teljesítménytesztet, és diagnosztizálja, hogy miért nem sikerült az ügynöknek elérnie a kívánt eredményt. A meta-ügynök ezt követően módosítja a agent.py fájlt, és ismét futtatja a teljesítménytesztet.
Az AutoAgent rendszerben a program.md fájl tartalmazza a direktívát, amelyet a felhasználó ad meg. A agent.py fájl pedig az ügynök konfigurációját tartalmazza, amelyet a meta-ügynök módosít. A rendszerben van egy results.tsv fájl is, amely a kísérletek eredményeit tartalmazza, és amelyet a meta-ügynök használ a tanuláshoz.
Gyakorlati alkalmazás
Az AutoAgent rendszert a gyakorlatban is alkalmazták, és az eredmények biztatóak. A rendszer 24 óra alatt elérte az első helyet a SpreadsheetBench és a TerminalBench GPT-5 teszten, emberi beavatkozás nélkül. Ez azt jelzi, hogy az AutoAgent rendszer képes arra, hogy egy mesterséges intelligencia ügynökét autonóm módon fejlessze és optimalizálja, anélkül, hogy emberi beavatkozásra lenne szükség.
Az AutoAgent mögött álló fejlesztő, Kevin Gu, reméli, hogy a rendszer forradalmasítja a mesterséges intelligencia területét. Az AutoAgent rendszer 2024. március 15-én elérte a 96,5%-os és 55,1%-os eredményt a SpreadsheetBench és a TerminalBench GPT-5 teszten.