Kutatás2026. máj. 16.frissítve: 12:30

Háromszor gyorsabb 3D objektumdetekciót ígér a SToRe3D rendszer

A Vision Transformer (ViT) modellek eddig lassúak voltak a többnézetes 3D objektumdetekcióban, de egy új módszer akár háromszoros sebességnövekedést is elérhet.

Fotó: hookle.app / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 16.

Megosztás

A Vision Transformer (ViT) modellek kiemelkedő teljesítményt nyújtanak a többnézetes 3D objektumdetekcióban, azonban a sűrű token- és lekérdezés-feldolgozás miatt magas késleltetéssel működnek — írja az arXiv-on megjelent tanulmány.

A kutatók szerint a meglévő ritkítási módszerek, amelyeket elsősorban 2D-s látásra terveztek, nem terjeszthetők ki a teljes modell ritkítására, és nem kezelik a 3D objektumlekérdezéseket. Erre a problémára kínál megoldást a SToRe3D, egy relevancia-alapú ritkítási keretrendszer, amely együttesen választja ki a 2D képtokeneket és a 3D objektumlekérdezéseket, miközben tárolja a szűrt jellemzőket az újraaktiváláshoz.

A számítási kapacitás optimalizálása

A SToRe3D a 2D-3D relevanciafejek segítségével osztja el a számítási kapacitást a kritikus fontosságú tartalmakra, miközben megőrzi a többi beágyazást. Ez a megközelítés lehetővé teszi, hogy a rendszer a legfontosabb információkra koncentráljon, anélkül, hogy jelentős pontosságvesztést szenvedne.

A teljesítmény értékelése

A nuScenes és az új nuScenes-Relevance benchmarkokon végzett értékelések alapján a SToRe3D akár 3x gyorsabb következtetési időt ér el minimális pontosságvesztés mellett — állítják a kutatók. Ez a fejlesztés valós idejű, nagyméretű, ViT-alapú 3D detekciót tesz lehetővé, miközben fenntartja a pontosságot a tervezés szempontjából kritikus objektumok esetében.

A SToRe3D rendszer a nuScenes-Relevance teljesítményteszten is bizonyította hatékonyságát, 2024-ben várható a további alkalmazások megjelenése az autonóm járművek területén.

tetszett a cikk? oszd meg →

Megosztás