Frissítve: 2 órája·Ma: 2
Kutatás
AI által generált szöveg

Két nagyságrenddel gyorsítja a képleírások értékelését a BEiTScore

A modell a nagyméretű nyelvi modellek (LLM) alapú értékelés számításigényét mérsékli, miközben a finomhangolt érzékenységet megőrzi.

Két nagyságrenddel gyorsítja a képleírások értékelését a BEiTScore
Fotó: National Cancer Institute / Unsplash
Forrás: ArXiv CVSzerző: AI Forradalom szerk.
Megosztás

Jelentős áttörést hozhat a képleírások értékelésében a BEiTScore, egy új, tanult metrika, amely egy könnyű keresztkódoló modellt használ — írja az ArXiv CV-n megjelent tanulmány. A kutatók szerint a jelenlegi értékelési módszerek, melyek nagyméretű nyelvi modelleket (LLM) alkalmaznak, rendkívül költségesek, míg a hagyományos CLIP-alapú kódolók korlátozottak a tokenek számában és a finomhangolt érzékenységben.

A modell betanításához gondosan összeállított adatkeveréket használtak, amelyben ellenséges LLM-alapú adatbővítések is szerepeltek. Ez a módszer segít a modellnek abban, hogy a képleírásokat ne csupán szavak zsákjaként kezelje, hanem a kompozicionális általánosítást is képes legyen elvégezni.

A számítási hatékonyság és a finomhangolt érzékenység egyensúlya

A BEiTScore a vizuális kérdés-válasz modellek ellenőrzőpontjából inicializált keresztkódolóval dolgozik, így egyensúlyt teremt az erős súlyinicializálás és a számítási hatékonyság között. Ez a megközelítés különösen fontos, mivel a vizuális-nyelvi modellek egyre összetettebb, hosszabb és kontextusban gazdagabb leírásokat generálnak.

A képleírás-értékelés jövője

A BEiTScore fejlesztése kritikus lépés a referencia nélküli képleírás-értékelés kihívásainak kezelésében, különösen az egyre kifinomultabb generatív modellek korában. A kutatók célja, hogy a metrika széles körben alkalmazható legyen a képfeldolgozás és a természetes nyelvi feldolgozás területén, a 2024-es évek elején várható további fejlesztésekkel a BEiTScore és a CLIP modell együttműködését biztosítva.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom