Modellek & LLM2026. máj. 29.frissítve: 08:30

SIA: Önszabályozó AI-ügynök nyílt forráskóddal frissíti magát

A Hexo Labs SIA nevű, nyílt forráskódú AI-ügynök emberi beavatkozás nélkül képes frissíteni saját működési keretrendszerét és modell súlyait, 70,1%-os pontosságot érve el jogi osztályozási feladatokban.

Fotó: Fotó: Growtika / Unsplash

forrás: MarkTechPost·AI Forradalom szerk.·2026. május 29.

Megosztás

A legtöbb AI-ügynök fejlesztése emberi felügyelethez kötött, ám a Hexo Labs új, SIA (Self-Improving AI) nevű nyílt forráskódú keretrendszere ezen változtatna. A SIA képes önmagát fejleszteni, egyszerre frissítve a működését irányító keretet (scaffold) és a modell súlyait egyetlen, önjavító ciklusban. A projektet MIT licenc alatt tették elérhetővé.

A SIA két fő részből áll: a keretből (harness), amely tartalmazza a rendszerüzenetet, az eszközkiválasztási logikát, az ismétlési szabályzatot és a válaszkinyerő kódot, valamint magából a modell súlyaiból. A működést három LLM-komponens vezérli: egy Meta-Agent kezdetben létrehozza a keretet a feladat specifikációja és a referenciakód alapján, egy Task-Specific Agent végrehajtja a feladatot és naplózza minden lépését, majd egy Feedback-Agent elemzi a teljes futtatási folyamatot és eldönti, mit kell változtatni. A Feedback-Agent döntése alapján vagy a keret íródik át, vagy a modell súlyai frissülnek.

Kapcsolódó: Nyílt forráskódú GPT

A kutatás három, eltérő domainen tesztelte a SIA képességeit. A LawBench jogi osztályozási feladaton a keret-frissítések 50%-os pontosságot értek el, míg a súlyfrissítésekkel kombinálva ez 70,1%-ra nőtt. Az AlphaFold2 Evoformer moduljának CUDA kernelét optimalizáló TriMul feladaton a keret-szerkesztés 1,14-szeres gyorsulást hozott, a súlyfrissítésekkel pedig a futási idő 91,9%-kal csökkent. A MAGIC nevű sejt-RNA imputációs módszer finomhangolásánál a keret-frissítések 0,241 mse_norm értéket értek el, míg a súlyfrissítésekkel ez 0,289-re javult.

Kapcsolódó: Önálló kódolás

A SIA átalakulása

A SIA rugalmasan alkalmazkodik a feladatokhoz: a Feedback-Agent a megfigyelt jutalomspektrum alapján választja ki a megfelelő tanulási algoritmust. Jogi feladatoknál PPO-t, a sikertelen fordítások miatt az entropic advantage weightinget, míg a denoise feladatnál GRPO-t használt. A kutatók szerint a rendszer erőssége az, hogy elsőként szerkeszti a keretet és a súlyokat egyetlen ciklusban, és egységesen javulást mutatott három eltérő területen.

Kapcsolódó: NVIDIA Star Elastic

A jövőbeli fejlesztések

A kutatás ugyanakkor felvet néhány aggályt is: mindkét fejlesztési irány ugyanazt a rögzített ellenőrzőt optimalizálja, ami Goodhart-hatáshoz vezethet, és a közös fixpont sérülékeny lehet perturbáció esetén. A Hexo Labs a SIA-t az openai/gpt-oss-120b modellen futtatja, LoRA-t használva 32-es rangon, míg a Meta- és Feedback-Agent a Claude Sonnet 4.6-ot használja, és a rendszer 2024. március 15-én lesz elérhető a nyilvánosság számára.

Kapcsolódó: GPT-oss teszt

tetszett a cikk? oszd meg →

Megosztás