Kutatás2026. ápr. 16.frissítve: 16:30

A Sentence Transformers finomhangolással gyorsítja a többmodális modelleket

A Sentence Transformers Python könyvtár legújabb frissítése lehetővé teszi a felhasználók számára, hogy szöveges, képi, hang- és videóadatokkal is betaníthassák és finomhangolhassák a beágyazási és reranker modelleket.

Fotó: National Cancer Institute / Unsplash

forrás: Hugging Face·AI Forradalom szerk.·2026. április 16.

Megosztás

Jelentős teljesítménynövekedést érhetnek el a felhasználók a többmodális beágyazási modellek finomhangolásával a Sentence Transformers könyvtárban — írja Tom Aarsen, a könyvtár fejlesztője blogbejegyzésében. A frissítés kulcsfontosságú a specifikus feladatokhoz, mint például a vizuális dokumentum-visszakeresés (VDR), ahol a modellnek releváns dokumentumoldalakat kell megtalálnia szöveges lekérdezések alapján.

A modell finomhangolásának folyamata a Qwen/Qwen3-VL-Embedding-2B modell esetében a VDR feladatra 0.888-ról 0.947-re növelte a NDCG@10 metrikát a kiértékelési adatokon. A finomhangolt modell (tomaarsen/Qwen3-VL-Embedding-2B-vdr) felülmúlta az összes tesztelt VDR modellt, beleértve a négyszer nagyobb méretűeket is a szerző értékelése szerint.

A modell mélyére ásva

A többmodális Sentence Transformer modellek betanítása hasonló a csak szöveges modellekhez, de a kulcsfontosságú különbség az, hogy az adathalmazok képeket (vagy más modalitásokat) is tartalmaznak a szöveg mellett. A képfeldolgozást a modell processzora automatikusan kezeli, egyszerűsítve a fejlesztők munkáját.

A Sentence Transformers határai

A Sentence Transformers könyvtár a Retrieval Augmented Generation (RAG) és a szemantikus keresés alkalmazásokhoz is használható, a frissítés pedig még szélesebb körű felhasználást tesz lehetővé a különböző adatmodalitások kezelésével. A tomaarsen/Qwen3-VL-Embedding-2B-vdr modell 2024. március 10-én került kiadásra.

tetszett a cikk? oszd meg →

Megosztás