ÉlőUtoljára: 16 perceMa: 7
Kutatásfrissítve: 23:10

Autonóm adatkutatóvá alakítja az AI modelleket a Meta Autodata keretrendszere

Az Autodata jelentősen felülmúlja a hagyományos szintetikus adatgenerálási módszereket, különösen komplex tudományos problémák esetén, csökkentve a költséges emberi annotáció szükségességét.

Autonóm adatkutatóvá alakítja az AI modelleket a Meta Autodata keretrendszere
Fotó: Fotó: Growtika / Unsplash
forrás: MarkTechPost·AI Forradalom szerk.·
Megosztás

A Meta kutatói bemutatták az Autodata nevű keretrendszert, amely mesterséges intelligencia ügynököket alkalmaz autonóm adatkutatóként. A rendszer feladata a képzési és értékelési adathalmazok iteratív felépítése, kiértékelése és finomítása — mindezt anélkül, hogy minden lépésnél költséges emberi annotációra támaszkodna — írja a MarkTechPost.

A Meta AI RAM (Reasoning, Alignment, and Memory) csapata ezzel a megközelítéssel az AI modellek fejlesztésének egyik fő szűk keresztmetszetét, az adatminőséget célozza meg. A komplex tudományos érvelési problémákon végzett tesztek szerint az Autodata nemcsak felveszi a versenyt a klasszikus szintetikus adatgenerálási módszerekkel, hanem jelentősen felül is múlja azokat.

A szintetikus adatgenerálás új korszaka

A modern AI rendszerek többsége ember által írt adatokkal indult. Ahogy a modellek fejlődtek, a kutatók elkezdték kiegészíteni ezeket szintetikus adatokkal, amelyeket maga a modell generált. A szintetikus adatok vonzóak, mert ritka, szélsőséges eseteket is képesek előállítani, csökkentik a manuális címkézés költségeit, és kihívást jelentőbb példákat produkálnak, mint amilyenek a nyilvános korpuszokban természetesen előfordulnak.

A szintetikus adatok generálásának domináns megközelítése a Self-Instruct volt, amely egy nagy nyelvi modellt (LLM) promptol nulla- vagy kevés-shot példákkal új képzési minták létrehozására. A Grounded Self-Instruct módszerek ezt kiterjesztették azáltal, hogy a generálást dokumentumokra és más forrásokra alapozták a hallucinációk csökkentése és a diverzitás növelése érdekében. A CoT Self-Instruct (Chain-of-Thought Self-Instruct) tovább ment, láncolt gondolkodási érvelést használva a generálás során komplexebb feladatok pontosabb felépítésére. A legújabb „Self-Challenging” módszerek lehetővé teszik, hogy egy kihívó ügynök eszközökkel interakcióba lépjen, mielőtt feladatot és az ahhoz tartozó értékelő funkciókat javasolna.

Az Autodata működése

Az Autodata lehetővé teszi az AI ügynökök számára, hogy adatkutatóként működjenek, akik iteratívan építenek magas minőségű képzési és értékelési adatokat. Az ügynök egy zárt hurkú folyamatot futtat, amely egy emberi adatkutató munkáját modellezi. Először adatokat hoz létre forrásdokumentumok alapján, eszközöket és tanult készségeket használva. Ezután elemzi a létrehozott adatokat, ellenőrzi azok korrektségét, minőségét és kihívásfokát, majd ezen tanulságok alapján frissíti az adatgenerálási receptjét, és addig ismétli a folyamatot, amíg egy megállási kritérium nem teljesül.

A Meta Autodata keretrendszere a 2023-as tesztek során a komplex tudományos problémák esetén 95%-os pontosságot ért el, ami jelentősen felülmúlja a klasszikus szintetikus adatgenerálási módszereket. Az Agentic Self-Instruct nevű kezdeti implementációban egy fő orchestrator LLM koordinál négy specializált alügynököt, és az adathalmazba való felvételhez négy szigorú feltételnek kell teljesülnie, beleértve a minőségi ellenőrzést és a megoldók közötti megfelelő teljesítménykülönbséget a Meta kutatói szerint.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom