NVIDIA Isaac GR00T N1.7: 20 000 órányi emberi videóval tanult a robotmodell
A modell a vizuális megfigyeléseket és a természetes nyelvi utasításokat folyamatos robotműveletekké alakítja, ezzel komplex feladatok megoldására képes.

Nyílt forráskódú, kereskedelmi licenccel ellátott Vision-Language-Action (VLA) modellt adott ki humanoid robotokhoz a NVIDIA, Isaac GR00T N1.7 néven — írja a Hugging Face.
A GR00T N1.7 egy 3 milliárd paraméteres modell, amely az emberi adatokra épít, és az emberi egocentrikus videókra fókuszál. A modell az Action Cascade architektúrát használja, amely a magas szintű érvelést és az alacsony szintű motorvezérlést különválasztja. A Cosmos-Reason2-2B alapú VLM a feladatok lebontásáért és a többlépéses érvelésért felel, míg egy 32 rétegű DiT a motorparancsokat generálja valós időben.
A modell betanításához több mint 20 854 órányi emberi egocentrikus videót használtak, amely 20+ feladatkategóriát ölel fel, a gyártástól az egészségügyig. Ez jelentős előrelépés a N1.6-os verzióhoz képest, amelyet csak néhány ezer órányi robot-teleoperációs adattal képeztek. A kutatás során felfedezték a robotok kézügyességének első skálázási törvényét: több emberi egocentrikus adat előre jelezhetően és következetesen javítja a dexteritást, ami több mint kétszeresére növeli az átlagos feladatmegoldási arányt.
A robotok képességeinek kiteljesedése
A GR00T N1.7 kereskedelmi licenccel rendelkezik, és támogatja a NVIDIA Ampere, Hopper, Lovelace, Blackwell és Jetson platformokat. A modell finomhangolható egyedi robotokon a LeRobot adatkészlet formátum segítségével.
A technológiai áttörés
Az új modell a NVIDIA Ampere platformon való futtatásával 2024. év végére várható, hogy szélesebb körben is elérhető legyen a fejlett robottechnológia.