Automatizált AI kutatás: az Anthropic ügynökei felülmúlják az emberi szakértőket
Az Anthropic kutatói sikeresen automatizálták az AI biztonsági kutatást, ahol az AI ügynökök jobban teljesítettek, mint az emberi kutatók a gyenge-erős felügyelet területén.

A mesterséges intelligencia kutatás automatizálása régóta cél, most azonban az Anthropic kutatói jelentős előrelépésről számoltak be. Olyan autonóm AI ügynököket hoztak létre, amelyek önállóan javasolnak ötleteket, kísérleteket futtatnak, és iterálnak egy nyitott kutatási problémán — írja az Import AI.
Az AI-ügynökök az emberi kutatókat is felülmúlták az igazítási ötletek kidolgozásában és tesztelésében, ami azt sugallja, hogy az ilyen típusú kutatás automatizálása már most is gyakorlatias. A kutatók a gyenge-erős felügyelet területén tesztelték a rendszert, ahol egy gyengébb modell felügyel egy erősebb modellt egy nehéz feladat elvégzésében.
A kutatás motorja
A kutatók Claude Opus 4.6 ügynökökből álló csapatot indítottak, amelyek egy műszerfalon keresztül, párhuzamosan dolgoztak. Minden ügynök független környezetben működött, de képesek voltak kommunikálni és tanulni egymástól: megosztották eredményeiket egy fórumban, és feltöltötték a kódállományok pillanatfelvételeit egy tárolórendszerbe.
Emberi kutatók hét napot töltöttek négy ígéretes általánosítási módszer iterálásával, és 23%-os teljesítménykülönbséget értek el a Qwen 3-4B-Base és Qwen 1.5-0.5B-Chat modellekkel. Claude öt további nap és 800 kumulatív kutatási óra alatt szinte a teljes fennmaradó teljesítménykülönbséget megszüntette, 0,97-es PGR-t (performance gap recovered) érve el.
Új fejlesztések a horizonton
Eközben a Huawei is jelentős fejlesztéssel állt elő: a HiFloat4 nevű 4 bites precíziós formátuma felülmúlja a nyugati fejlesztésű MXFP4-et az Ascend chipjein. A kutatók szerint a HiFloat4 alacsonyabb relatív veszteséget (≈ 1,0%) ér el a MXFP4 (≈ 1,5%) ellenében, különösen nagyobb modelleknél, mint a Llama és a Qwen. Az Anthropic kutatása 2024. március 15-én zárult, az eredmények pedig az Anthropic Fellows Program keretében folytatódó kutatások alapjául szolgálnak.