Háromszor gyorsabb 3D objektumdetekciót ígér a SToRe3D rendszer
A Vision Transformer (ViT) modellek eddig lassúak voltak a többnézetes 3D objektumdetekcióban, de egy új módszer akár háromszoros sebességnövekedést is elérhet.

A Vision Transformer (ViT) modellek kiemelkedő teljesítményt nyújtanak a többnézetes 3D objektumdetekcióban, azonban a sűrű token- és lekérdezés-feldolgozás miatt magas késleltetéssel működnek — írja az arXiv-on megjelent tanulmány.
A kutatók szerint a meglévő ritkítási módszerek, amelyeket elsősorban 2D-s látásra terveztek, nem terjeszthetők ki a teljes modell ritkítására, és nem kezelik a 3D objektumlekérdezéseket. Erre a problémára kínál megoldást a SToRe3D, egy relevancia-alapú ritkítási keretrendszer, amely együttesen választja ki a 2D képtokeneket és a 3D objektumlekérdezéseket, miközben tárolja a szűrt jellemzőket az újraaktiváláshoz.
A számítási kapacitás optimalizálása
A SToRe3D a 2D-3D relevanciafejek segítségével osztja el a számítási kapacitást a kritikus fontosságú tartalmakra, miközben megőrzi a többi beágyazást. Ez a megközelítés lehetővé teszi, hogy a rendszer a legfontosabb információkra koncentráljon, anélkül, hogy jelentős pontosságvesztést szenvedne.
A teljesítmény értékelése
A nuScenes és az új nuScenes-Relevance benchmarkokon végzett értékelések alapján a SToRe3D akár 3x gyorsabb következtetési időt ér el minimális pontosságvesztés mellett — állítják a kutatók. Ez a fejlesztés valós idejű, nagyméretű, ViT-alapú 3D detekciót tesz lehetővé, miközben fenntartja a pontosságot a tervezés szempontjából kritikus objektumok esetében.
A SToRe3D rendszer a nuScenes-Relevance teljesítményteszten is bizonyította hatékonyságát, 2024-ben várható a további alkalmazások megjelenése az autonóm járművek területén.