MixAtlas: 100-szor olcsóbban optimalizálja a többmodális AI-t az Apple kutatása
A MixAtlas nevű keretrendszerrel a többmodális nagyméretű nyelvi modellek (LLM) betanítása drasztikusan felgyorsulhat, miközben a költségek töredékére csökkennek.

Új, elvvezérelt keretrendszert mutatott be az Apple kutatócsoportja a többmodális LLM-ek adatösszetételének optimalizálására. A MixAtlas nevű módszerrel a betanítási költségek akár 100-ad részére is csökkenhetnek — írja a csapat az ICLR 2026 konferencia NADPFM workshopján elfogadott tanulmányában.
A többmodális modellek betanítása során eddig nehézkes volt megtalálni az optimális adatkeveréket, ami jelentősen befolyásolja a modell teljesítményét és hatékonyságát. A jelenlegi megközelítések gyakran csak egyetlen szempontból, például adatformátum vagy feladattípus alapján hangolják az adatkeverékeket.
A MixAtlas a betanítási adatokat két értelmezhető tengely mentén bontja fel: képi koncepciók és feladatfelügyelet. Ez lehetővé teszi az adatkeverék finomhangolását és a teljesítmény pontosabb hozzárendelését specifikus adatterületekhez.
A modellbetanítás térképén
A módszer kisebb, úgynevezett proxy modelleket és egy Gauss-folyamat szurrogátumot használ, így a teljes skálájú betanítás költségének mindössze 1/100-ad részéért képes feltérképezni az optimális adatkeverék terét.
Gyorsabb konvergencia, jobb pontosság
Az optimalizált adatkeverékek jelentős javulást eredményeznek: a kutatók szerint akár 3-szoros gyorsabb konvergenciát és 2-5%-os teljesítménynövekedést értek el a meglévő megközelítésekhez képest, különböző benchmarkokon. Különösen erős, 10%-os növekedést mutatott a ChartQA és 13%-osat a TextVQA nevű, szövegcentrikus benchmarkokon.
A Bingbing Wen, Sirajul Salekin, Feiyang Kang, Lucy Lu Wang, Bill Howe, Javier Movellan és Manjot Bilkhu által jegyzett kutatásban az is kiderült, hogy a kisebb proxy modellekkel optimalizált adatkeverékek átvihetők nagyobb modellek betanítására is, megőrizve a hatékonysági és pontossági előnyöket. A MixAtlas így konkrét, számítási szempontból hatékony recepteket kínál a következő generációs MLLM-ek betanításához, ami a 2026-os ICLR konferencia NADPFM workshopján is téma lesz, ahol a csapat 2026. április 30-án mutatja be a részleteket.