AdaVFM: Új keretrendszer hozza el a vizuális AI-t a peremeszközökre
Egy új adaptív keretrendszer, az AdaVFM teszi lehetővé a nyelvvel összehangolt vizuális alapmodellek (VFM) hatékony futtatását peremeszközökön, dinamikus számítási optimalizálással.

A nyelvvel összehangolt vizuális alapmodellek (VFM) sokoldalú vizuális megértést biztosítanak a folyamatosan működő kontextuális AI számára, ám peremeszközökön való telepítésüket szigorú késleltetési és energiafogyasztási korlátok akadályozzák — írja az ArXiv CV.
Az AdaVFM nevű adaptív keretrendszer a számításokat dinamikusan igazítja a jelenet kontextusához és a feladat komplexitásához, ezzel hatékony on-device következtetést tesz lehetővé. A kulcsfontosságú felismerés, hogy a modellméret-csökkentés hatása a teljesítményre feladatfüggő a vizuális alkalmazásokban, ami futásidejű adaptív végrehajtási stratégiát igényel.
Az AdaVFM a neurális architektúra-keresést (NAS) integrálja a nyelvvel összehangolt VFM-gerincbe, hogy futásidőben könnyű alhálózatok végrehajtását tegye lehetővé. Egy felhőben telepített multimodális nagy nyelvi modell (LLM) biztosítja a futásidejű vezérlést egy kontextustudatos ügynök segítségével.
Ez a szinergia hatékony modelladaptációt tesz lehetővé változatos körülmények között, miközben fenntartja az erős pontosságot. A keretrendszert kiterjedt kísérletekkel tesztelték zero-shot feladatokon.