Kutatók fejlesztettek egy új, kétáramú transzformátor alapú modellt a kölcsönös pillantás és a közös figyelem automatikus detektálására két kamerás felvételek alapján
A kölcsönös tekintet és a közös figyelem észlelése kulcsfontosságú a fejlődéslélektanban, ám eddig munkaigényes manuális kódolást igényelt a kutatóktól.

Egy új, kétfolyamú Transformer architektúra képes automatizálni a csecsemők és gondozóik közötti kölcsönös tekintet és közös figyelem észlelését — derül ki egy friss, előnyomtatott tanulmányból, amelyet az arXiv-on tettek közzé.
A fejlődéslélektanban alapvető fontosságú a csecsemő-gondozó interakciók elemzése, különösen a tekintet és a figyelem mintázatai, amelyek a szociális és kognitív fejlődés kulcsindikátorai.
A kölcsönös pillantás tükrében
Az új modell rendkívül hatékonyan detektálja a kölcsönös tekintetet és a közös figyelmet szinkronizált, kétkamerás felvételeken. A megközelítés a GazeLLE nevű, tekintetérzékeny alapmodellekre épül, amelyek gazdag vizuális információkat vonnak ki, és egy egyedi token-fúziós mechanizmussal térképezik fel az interakcióban részt vevő felek közötti térbeli és szemantikai kapcsolatokat.
A gondozó-csecsemő interakciók valós adathalmazán végzett értékelés során a modell jó teljesítményt mutatott, és jelentősen felülmúlta mind egy korábbi konvolúciós alapmodellt, mind egy modern, többmodális nagyméretű nyelvi modellt (LLM) is — írják a kutatók az arXiv:2604.27105v1 számú publikációban.
Új utak a fejlődéslélektanban
A modell és az előre betanított súlyok nyílt forráskódúak, ami elősegítheti a további kutatásokat és alkalmazásokat a fejlődéslélektan területén, például 2024-ben tervezett konferencián.