ÉlőUtoljára: 1 órájaMa: 23
Kutatásfrissítve: 05:50

Új Auto-Rubric módszerrel javul a multimodális AI-modellek értékelése

A rendszer a vizuális nyelvi modellek (VLM) belső preferenciáit prompt-specifikus rubrikákká alakítja, így a holisztikus szándékot önállóan ellenőrizhető minőségi dimenziókká bontja.

Új Auto-Rubric módszerrel javul a multimodális AI-modellek értékelése
Fotó: Fotó: National Cancer Institute / Unsplash
forrás: ArXiv AI·AI Forradalom szerk.·
Megosztás

Új módszert vezettek be a multimodális generatív modellek emberi preferenciákkal való összehangolására — írja az ArXiv-en megjelent tanulmány. Az Auto-Rubric as Reward (ARR) nevű keretrendszer a jutalommodellezést implicit súlyoptimalizálásról explicit, kritériumalapú felbontásra helyezi át.

A jelenlegi megerősítéses tanulási (RLHF) megközelítések gyakran skaláris vagy páros címkékre redukálják az emberi ítélet összetett, többdimenziós szerkezetét. Ez a megközelítés a finom árnyalatokat átláthatatlan parametrikus proxykká alakítja, és sebezhetővé teszi a modelleket a jutalom-hackeléssel szemben, ahol a modell optimalizálja a jutalmat anélkül, hogy valóban javítaná a kimenet minőségét.

A VLM-ek belső világa

Az ARR rendszer a páros összehasonlítások előtt a VLM-ek internalizált preferenciális tudását prompt-specifikus rubrikákként externalizálja. Ez a megközelítés a holisztikus szándékot függetlenül ellenőrizhető minőségi dimenziókká alakítja, így pontosabb és megbízhatóbb értékelést tesz lehetővé.

Áttörés a generatív modellek fejlesztésében

A kutatók szerint az ARR segít megelőzni, hogy a generatív modellek egy szűk kimeneti halmazra optimalizálódjanak, ami a szintetikus adatok kurálása során gyakori probléma. A módszerrel a modellek kimenetei kevésbé fognak összeomlani egy szűk tartományba, ami szélesebb és változatosabb generációkat eredményezhet. Az ARR rendszer az ArXiv-en megjelent tanulmányban 2024. március 10-én került bemutatásra.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom