Robotika & CV2026. ápr. 17.frissítve: 18:10

NVIDIA Isaac GR00T N1.7: 20 000 órányi emberi videóval tanult a robotmodell

A modell a vizuális megfigyeléseket és a természetes nyelvi utasításokat folyamatos robotműveletekké alakítja, ezzel komplex feladatok megoldására képes.

Fotó: Homa Appliances / Unsplash

forrás: Hugging Face·AI Forradalom szerk.·2026. április 17.

Megosztás

Nyílt forráskódú, kereskedelmi licenccel ellátott Vision-Language-Action (VLA) modellt adott ki humanoid robotokhoz az NVIDIA, Isaac GR00T N1.7 néven — írja a Hugging Face.

A GR00T N1.7 egy 3 milliárd paraméteres modell, amely az emberi adatokra épít, és az emberi egocentrikus videókra fókuszál. A modell az Action Cascade architektúrát használja, amely a magas szintű érvelést és az alacsony szintű motorvezérlést különválasztja. A Cosmos-Reason2-2B alapú VLM a feladatok lebontásáért és a többlépéses érvelésért felel, míg egy 32 rétegű DiT a motorparancsokat generálja valós időben.

A modell betanításához több mint 20 854 órányi emberi egocentrikus videót használtak, amely 20+ feladatkategóriát ölel fel, a gyártástól az egészségügyig. Ez jelentős előrelépés a N1.6-os verzióhoz képest, amelyet csak néhány ezer órányi robot-teleoperációs adattal képeztek. A kutatás során felfedezték a robotok kézügyességének első skálázási törvényét: több emberi egocentrikus adat előre jelezhetően és következetesen javítja a dexteritást, ami több mint kétszeresére növeli az átlagos feladatmegoldási arányt.

A robotok képességeinek kiteljesedése

A GR00T N1.7 kereskedelmi licenccel rendelkezik, és támogatja az NVIDIA Ampere, Hopper, Lovelace, Blackwell és Jetson platformokat. A modell finomhangolható egyedi robotokon a LeRobot adatkészlet formátum segítségével.

A technológiai áttörés

Az új modell az NVIDIA Ampere platformon való futtatásával 2024. év végére várható, hogy szélesebb körben is elérhető legyen a fejlett robottechnológia.

tetszett a cikk? oszd meg →

Megosztás