HumanNet: egymillió órányi videóval skálázza a robotikai tanulást

Jelentősen skálázza a robotikai és beágyazott intelligencia fejlesztését a HumanNet, egy egymillió órás emberközpontú videókorpusz — írja az arXiv-on megjelent kutatás. A projekt célja, hogy áthidalja a hiányt a nagy, diverz és gazdagon annotált emberi tevékenységeket bemutató adatok terén, amelyek kulcsfontosságúak a fizikai interakciók megtanításához.

A HumanNet adatbázis nem csupán nyers videókat kínál, hanem interakcióközpontú annotációkat is tartalmaz. Ezek közé tartoznak a feliratok, mozgásleírások, valamint kéz- és testmozgással kapcsolatos jelek, amelyek mozgás- és interakciótudatos tanulást tesznek lehetővé. Az adathalmaz valós környezetek széles skáláját fedi le.

A puszta méretén túl a HumanNet egy szisztematikus adatkurációs paradigmát is bevezet a beágyazott tanuláshoz, emberközpontú szűréssel és temporális struktúrával. Ez a megközelítés segíthet a gépi tanulási modelleknek abban, hogy jobban megértsék és reprodukálják az emberi viselkedést a fizikai világban.

A HumanNet adatbázis előreláthatólag új lehetőségeket nyit meg a robotok képzésében, különösen azokon a területeken, ahol az emberi interakciók és a finommotoros mozgások megértése kritikus fontosságú. A kutatók szerint a HumanNet hozzájárulhat a RLHF (reinforcement learning from human feedback) és a Mixture of Experts (MoE) modellek hatékonyabb betanításához is, amelyek egyre inkább meghatározzák az AI-rendszerek emberi preferenciákhoz való igazítását.