Kutatás2026. máj. 2.frissítve: 02:50

Kutatók fejlesztettek egy új, kétáramú transzformátor alapú modellt a kölcsönös pillantás és a közös figyelem automatikus detektálására két kamerás felvételek alapján

A kölcsönös tekintet és a közös figyelem észlelése kulcsfontosságú a fejlődéslélektanban, ám eddig munkaigényes manuális kódolást igényelt a kutatóktól.

Fotó: Fotó: Ondrej Supitar / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 2.

Megosztás

Egy új, kétfolyamú Transformer architektúra képes automatizálni a csecsemők és gondozóik közötti kölcsönös tekintet és közös figyelem észlelését — derül ki egy friss, előnyomtatott tanulmányból, amelyet az arXiv-on tettek közzé.

A fejlődéslélektanban alapvető fontosságú a csecsemő-gondozó interakciók elemzése, különösen a tekintet és a figyelem mintázatai, amelyek a szociális és kognitív fejlődés kulcsindikátorai.

A kölcsönös pillantás tükrében

Az új modell rendkívül hatékonyan detektálja a kölcsönös tekintetet és a közös figyelmet szinkronizált, kétkamerás felvételeken. A megközelítés a GazeLLE nevű, tekintetérzékeny alapmodellekre épül, amelyek gazdag vizuális információkat vonnak ki, és egy egyedi token-fúziós mechanizmussal térképezik fel az interakcióban részt vevő felek közötti térbeli és szemantikai kapcsolatokat.

A gondozó-csecsemő interakciók valós adathalmazán végzett értékelés során a modell jó teljesítményt mutatott, és jelentősen felülmúlta mind egy korábbi konvolúciós alapmodellt, mind egy modern, többmodális nagyméretű nyelvi modellt (LLM) is — írják a kutatók az arXiv:2604.27105v1 számú publikációban.

Új utak a fejlődéslélektanban

A modell és az előre betanított súlyok nyílt forráskódúak, ami elősegítheti a további kutatásokat és alkalmazásokat a fejlődéslélektan területén, például 2024-ben tervezett konferencián.

tetszett a cikk? oszd meg →

Megosztás