FAGER: Új módszer értékeli a képgeneráló AI-k vizuális pontosságát
A FAGER az implicit, külső forrásból származó vagy identitásmeghatározó tényeket is vizsgálja, amelyek a hagyományos metrikák számára láthatatlanok maradtak.

A meglévő szövegből képet generáló (T2I) modellek értékelési metrikái elsősorban azt mérik, hogy a létrehozott képek mennyire illeszkednek a promptban explicit módon megadott információkhoz — írja az ArXiv CV.
Ezek a metrikák azonban gyakran nem képesek megragadni azokat a ténybeli követelményeket, amelyek implicit módon, külső forrásból vagy identitásmeghatározó jelleggel fakadnak. Emiatt nem alkalmasak a ténybeli korrektség értékelésére olyan utasítások esetében, amelyek tudományos ismereteket, történelmi tényeket, termékeket vagy kultúrspecifikus fogalmakat tartalmaznak.
A kutatók a FActually Grounded Evaluation and Refinement (FAGER) nevű ügynökalapú rendszert javasolják. Ez a rendszer azt értékeli, hogy a generált képek helyesen tükrözik-e a promptban szereplő vagy abból implicit módon következő, vizuálisan ellenőrizhető tényeket, miközben konkrét visszajelzést is ad a javításra.
A FAGER először egy strukturált ténybeli értékelési rubrikát hoz létre, amely a LLM-alapú tényjavaslatot referenciavezérelt vizuális ténykivonatolással és ellenőrzéssel kombinálja. Ezután a rubrikát kérdés-válasz párokká alakítja VLM-alapú értékeléshez, ezzel validálva a FAGER ténybeli pontosságát.