Két nagyságrenddel gyorsítja a képleírások értékelését a BEiTScore

Jelentős áttörést hozhat a képleírások értékelésében a BEiTScore, egy új, tanult metrika, amely egy könnyű keresztkódoló modellt használ — írja az ArXiv CV-n megjelent tanulmány. A kutatók szerint a jelenlegi értékelési módszerek, melyek nagyméretű nyelvi modelleket (LLM) alkalmaznak, rendkívül költségesek, míg a hagyományos CLIP-alapú kódolók korlátozottak a tokenek számában és a finomhangolt érzékenységben.

A modell betanításához gondosan összeállított adatkeveréket használtak, amelyben ellenséges LLM-alapú adatbővítések is szerepeltek. Ez a módszer segít a modellnek abban, hogy a képleírásokat ne csupán szavak zsákjaként kezelje, hanem a kompozicionális általánosítást is képes legyen elvégezni.

A számítási hatékonyság és a finomhangolt érzékenység egyensúlya

A BEiTScore a vizuális kérdés-válasz modellek ellenőrzőpontjából inicializált keresztkódolóval dolgozik, így egyensúlyt teremt az erős súlyinicializálás és a számítási hatékonyság között. Ez a megközelítés különösen fontos, mivel a vizuális-nyelvi modellek egyre összetettebb, hosszabb és kontextusban gazdagabb leírásokat generálnak.

A képleírás-értékelés jövője

A BEiTScore fejlesztése kritikus lépés a referencia nélküli képleírás-értékelés kihívásainak kezelésében, különösen az egyre kifinomultabb generatív modellek korában. A kutatók célja, hogy a metrika széles körben alkalmazható legyen a képfeldolgozás és a természetes nyelvi feldolgozás területén, a 2024-es évek elején várható további fejlesztésekkel a BEiTScore és a CLIP modell együttműködését biztosítva.