HumanNet: egymillió órányi videóval skálázza a robotikai tanulást
Az adatbázis első- és harmadik személyű nézeteket is tartalmaz, finomhangolt tevékenységeket, ember-tárgy interakciókat és hosszú távú viselkedéseket rögzít.

Jelentősen skálázza a robotikai és beágyazott intelligencia fejlesztését a HumanNet, egy egymillió órás emberközpontú videókorpusz — írja az arXiv-on megjelent kutatás. A projekt célja, hogy áthidalja a hiányt a nagy, diverz és gazdagon annotált emberi tevékenységeket bemutató adatok terén, amelyek kulcsfontosságúak a fizikai interakciók megtanításához.
A HumanNet adatbázis nem csupán nyers videókat kínál, hanem interakcióközpontú annotációkat is tartalmaz. Ezek közé tartoznak a feliratok, mozgásleírások, valamint kéz- és testmozgással kapcsolatos jelek, amelyek mozgás- és interakciótudatos tanulást tesznek lehetővé. Az adathalmaz valós környezetek széles skáláját fedi le.
A puszta méretén túl a HumanNet egy szisztematikus adatkurációs paradigmát is bevezet a beágyazott tanuláshoz, emberközpontú szűréssel és temporális struktúrával. Ez a megközelítés segíthet a gépi tanulási modelleknek abban, hogy jobban megértsék és reprodukálják az emberi viselkedést a fizikai világban.
A HumanNet adatbázis előreláthatólag új lehetőségeket nyit meg a robotok képzésében, különösen azokon a területeken, ahol az emberi interakciók és a finommotoros mozgások megértése kritikus fontosságú. A kutatók szerint a HumanNet hozzájárulhat a RLHF (reinforcement learning from human feedback) és a Mixture of Experts (MoE) modellek hatékonyabb betanításához is, amelyek egyre inkább meghatározzák az AI-rendszerek emberi preferenciákhoz való igazítását.