A ml-intern 10 óra alatt 10-ről 32%-ra javítja a Qwen3-1.7B modellt
Az új eszköz irodalomkutatástól az adathalmaz-felderítésen át a betanítási szkriptek végrehajtásáig minden lépést elvégez, jelentősen felgyorsítva a fejlesztési ciklust.

Nyílt forráskódú AI ügynököt adott ki a Hugging Face, amely a LLM-ek utólagos betanítási munkafolyamatait automatizálja. A ml-intern nevű eszköz a vállalat smolagents keretrendszerére épül, és képes önállóan elvégezni az irodalomkutatást, adathalmaz-felderítést, betanítási szkriptek futtatását és az iteratív értékelést — írja a MarkTechPost.
Az ügynök egy folyamatos ciklusban működik, amely egy ML kutató munkafolyamatát tükrözi. A arXiv és a Hugging Face Papers böngészésével kezdi, ahol módszertani részeket olvas és hivatkozási gráfokat jár be a releváns adathalmazok és technikák azonosítására. Ezután a Hugging Face Hubon keresi meg a hivatkozott adathalmazokat, ellenőrzi azok minőségét, és átformázza őket a betanításhoz. Ha helyi számítási kapacitás nem áll rendelkezésre, az ügynök a Hugging Face Jobs-on keresztül indíthat feladatokat.
Az automatizálás hatékonysága
Minden betanítási futtatás után kiolvassa az értékelési eredményeket, diagnosztizálja a hibákat – például a jutalom összeomlását a RLHF folyamatokban – és újratanítja a modellt, amíg a teljesítményteszt teljesítménye javul. A teljes monitorozási verem a Trackio-ra támaszkodik, amely egy Hub-natív kísérletkövető, és a Weights & Biases nyílt forráskódú alternatívája.
A PostTrainBench teljesítményteszt
A ml-internt a PostTrainBench teljesítményteszten értékelték, amelyet a Tübingeni Egyetem és a Max Planck Intézet kutatói vezettek be. Ez a teljesítményteszt azt teszteli, hogy egy ügynök képes-e egy alapmodellt utólag betanítani egy szigorú 10 órás időkereten belül, egyetlen H100 GPU-n. Egy demóban a ml-intern a Qwen3-1.7B alapmodellt – amely a GPQA-n körülbelül 10%-os alapértéket ért el – kevesebb mint 10 óra alatt 32%-ra javította, 2024. március 15-én.