Új Auto-Rubric módszerrel javul a multimodális AI-modellek értékelése
A rendszer a vizuális nyelvi modellek (VLM) belső preferenciáit prompt-specifikus rubrikákká alakítja, így a holisztikus szándékot önállóan ellenőrizhető minőségi dimenziókká bontja.

Új módszert vezettek be a multimodális generatív modellek emberi preferenciákkal való összehangolására — írja az ArXiv-en megjelent tanulmány. Az Auto-Rubric as Reward (ARR) nevű keretrendszer a jutalommodellezést implicit súlyoptimalizálásról explicit, kritériumalapú felbontásra helyezi át.
A jelenlegi megerősítéses tanulási (RLHF) megközelítések gyakran skaláris vagy páros címkékre redukálják az emberi ítélet összetett, többdimenziós szerkezetét. Ez a megközelítés a finom árnyalatokat átláthatatlan parametrikus proxykká alakítja, és sebezhetővé teszi a modelleket a jutalom-hackeléssel szemben, ahol a modell optimalizálja a jutalmat anélkül, hogy valóban javítaná a kimenet minőségét.
A VLM-ek belső világa
Az ARR rendszer a páros összehasonlítások előtt a VLM-ek internalizált preferenciális tudását prompt-specifikus rubrikákként externalizálja. Ez a megközelítés a holisztikus szándékot függetlenül ellenőrizhető minőségi dimenziókká alakítja, így pontosabb és megbízhatóbb értékelést tesz lehetővé.
Áttörés a generatív modellek fejlesztésében
A kutatók szerint az ARR segít megelőzni, hogy a generatív modellek egy szűk kimeneti halmazra optimalizálódjanak, ami a szintetikus adatok kurálása során gyakori probléma. A módszerrel a modellek kimenetei kevésbé fognak összeomlani egy szűk tartományba, ami szélesebb és változatosabb generációkat eredményezhet. Az ARR rendszer az ArXiv-en megjelent tanulmányban 2024. március 10-én került bemutatásra.