A Sentence Transformers finomhangolással gyorsítja a többmodális modelleket
A Sentence Transformers Python könyvtár legújabb frissítése lehetővé teszi a felhasználók számára, hogy szöveges, képi, hang- és videóadatokkal is betaníthassák és finomhangolhassák a beágyazási és reranker modelleket.

Jelentős teljesítménynövekedést érhetnek el a felhasználók a többmodális beágyazási modellek finomhangolásával a Sentence Transformers könyvtárban — írja Tom Aarsen, a könyvtár fejlesztője blogbejegyzésében. A frissítés kulcsfontosságú a specifikus feladatokhoz, mint például a vizuális dokumentum-visszakeresés (VDR), ahol a modellnek releváns dokumentumoldalakat kell megtalálnia szöveges lekérdezések alapján.
A modell finomhangolásának folyamata a Qwen/Qwen3-VL-Embedding-2B modell esetében a VDR feladatra 0.888-ról 0.947-re növelte a NDCG@10 metrikát a kiértékelési adatokon. A finomhangolt modell (tomaarsen/Qwen3-VL-Embedding-2B-vdr) felülmúlta az összes tesztelt VDR modellt, beleértve a négyszer nagyobb méretűeket is a szerző értékelése szerint.
A modell mélyére ásva
A többmodális Sentence Transformer modellek betanítása hasonló a csak szöveges modellekhez, de a kulcsfontosságú különbség az, hogy az adathalmazok képeket (vagy más modalitásokat) is tartalmaznak a szöveg mellett. A képfeldolgozást a modell processzora automatikusan kezeli, egyszerűsítve a fejlesztők munkáját.
A Sentence Transformers határai
A Sentence Transformers könyvtár a Retrieval Augmented Generation (RAG) és a szemantikus keresés alkalmazásokhoz is használható, a frissítés pedig még szélesebb körű felhasználást tesz lehetővé a különböző adatmodalitások kezelésével. A tomaarsen/Qwen3-VL-Embedding-2B-vdr modell 2024. március 10-én került kiadásra.