Kutatás2026. máj. 20.frissítve: 16:50

FAGER: Új módszer értékeli a képgeneráló AI-k vizuális pontosságát

A FAGER az implicit, külső forrásból származó vagy identitásmeghatározó tényeket is vizsgálja, amelyek a hagyományos metrikák számára láthatatlanok maradtak.

Fotó: National Cancer Institute / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 20.

Megosztás

A meglévő szövegből képet generáló (T2I) modellek értékelési metrikái elsősorban azt mérik, hogy a létrehozott képek mennyire illeszkednek a promptban explicit módon megadott információkhoz — írja az ArXiv CV.

Ezek a metrikák azonban gyakran nem képesek megragadni azokat a ténybeli követelményeket, amelyek implicit módon, külső forrásból vagy identitásmeghatározó jelleggel fakadnak. Emiatt nem alkalmasak a ténybeli korrektség értékelésére olyan utasítások esetében, amelyek tudományos ismereteket, történelmi tényeket, termékeket vagy kultúrspecifikus fogalmakat tartalmaznak.

A kutatók a FActually Grounded Evaluation and Refinement (FAGER) nevű ügynökalapú rendszert javasolják. Ez a rendszer azt értékeli, hogy a generált képek helyesen tükrözik-e a promptban szereplő vagy abból implicit módon következő, vizuálisan ellenőrizhető tényeket, miközben konkrét visszajelzést is ad a javításra.

A FAGER először egy strukturált ténybeli értékelési rubrikát hoz létre, amely az LLM-alapú tényjavaslatot referenciavezérelt vizuális ténykivonatolással és ellenőrzéssel kombinálja. Ezután a rubrikát kérdés-válasz párokká alakítja VLM-alapú értékeléshez, ezzel validálva a FAGER ténybeli pontosságát.

tetszett a cikk? oszd meg →

Megosztás