ÉlőUtoljára: 10 perceMa: 5
Alkalmazásokfrissítve: 01:30

A ml-intern 10 óra alatt 10-ről 32%-ra javítja a Qwen3-1.7B modellt

Az új eszköz irodalomkutatástól az adathalmaz-felderítésen át a betanítási szkriptek végrehajtásáig minden lépést elvégez, jelentősen felgyorsítva a fejlesztési ciklust.

A ml-intern 10 óra alatt 10-ről 32%-ra javítja a Qwen3-1.7B modellt
Fotó: Fotó: Chris Ried / Unsplash
forrás: MarkTechPost·AI Forradalom szerk.·
Megosztás

Nyílt forráskódú AI ügynököt adott ki a Hugging Face, amely a LLM-ek utólagos betanítási munkafolyamatait automatizálja. A ml-intern nevű eszköz a vállalat smolagents keretrendszerére épül, és képes önállóan elvégezni az irodalomkutatást, adathalmaz-felderítést, betanítási szkriptek futtatását és az iteratív értékelést — írja a MarkTechPost.

Az ügynök egy folyamatos ciklusban működik, amely egy ML kutató munkafolyamatát tükrözi. A arXiv és a Hugging Face Papers böngészésével kezdi, ahol módszertani részeket olvas és hivatkozási gráfokat jár be a releváns adathalmazok és technikák azonosítására. Ezután a Hugging Face Hubon keresi meg a hivatkozott adathalmazokat, ellenőrzi azok minőségét, és átformázza őket a betanításhoz. Ha helyi számítási kapacitás nem áll rendelkezésre, az ügynök a Hugging Face Jobs-on keresztül indíthat feladatokat.

Az automatizálás hatékonysága

Minden betanítási futtatás után kiolvassa az értékelési eredményeket, diagnosztizálja a hibákat – például a jutalom összeomlását a RLHF folyamatokban – és újratanítja a modellt, amíg a teljesítményteszt teljesítménye javul. A teljes monitorozási verem a Trackio-ra támaszkodik, amely egy Hub-natív kísérletkövető, és a Weights & Biases nyílt forráskódú alternatívája.

A PostTrainBench teljesítményteszt

A ml-internt a PostTrainBench teljesítményteszten értékelték, amelyet a Tübingeni Egyetem és a Max Planck Intézet kutatói vezettek be. Ez a teljesítményteszt azt teszteli, hogy egy ügynök képes-e egy alapmodellt utólag betanítani egy szigorú 10 órás időkereten belül, egyetlen H100 GPU-n. Egy demóban a ml-intern a Qwen3-1.7B alapmodellt – amely a GPQA-n körülbelül 10%-os alapértéket ért el – kevesebb mint 10 óra alatt 32%-ra javította, 2024. március 15-én.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom