Rethinking the Good Enough Embedding for Easy Few-Shot Learning

A mély vizuális felismerés területén paradigmaváltás zajlik az univerzális reprezentációk felé, ahol a masszív adathalmazokon képzett architektúrák egy megosztott, „ideális” látens tér felé konvergálnak — írja az arXiv-on megjelent tanulmány.

Ez a konvergencia felveti a kérdést, hogy vajon elegendőek-e a „jó” beágyazások a komplex feladatokhoz. A kutatók szerint a kész beágyazások alapvetően „elég jók” a bonyolult feladatokhoz, így az intenzív, feladatspecifikus finomhangolás feleslegessé válik. Ezt a hipotézist a kevés-shot (few-shot) tanulás keretében vizsgálták, egy egyszerű, nem parametrikus folyamatot javasolva, amely teljesen megkerüli a backpropagációt.

Finomhangolás nélküli teljesítmény

A módszer lényege, hogy fagyasztott DINOv2-L funkciókat használnak, amelyeken egy k-legközelebbi szomszéd (k-NN) osztályozót alkalmaznak. Rétegenkénti jellemzést végeztek az optimális funkciókivonás azonosítására. A kísérletek szerint a PCA és ICA általi sokrétű finomítás előnyös regularizáló hatást biztosít.

Az eredmények négy nagy teljesítményteszten is azt mutatják, hogy a megközelítés következetesen felülmúlja a kifinomult meta-tanuló algoritmusokat, és a jelenlegi legmodernebb (state-of-the-art) teljesítményt éri el. A tanulmányt Michael Karnes és egy másik szerző jegyzi, és 2026. május 13-án publikálták az arXiv-on.