NVIDIA Cosmos Predict 2.5: LoRA/DoRA finomhangolással gyorsul a robotok tanulása
A LoRA és DoRA technikák jelentősen csökkentik a memóriaigényt, így a modell hatékonyan finomhangolható robotmanipulációs feladatokra egyetlen GPU-val is.

A NVIDIA Cosmos Predict 2.5 egy nagyméretű világmodell, amely szöveg, kép vagy videó alapján képes fizikailag hihető videókat generálni — írja a NVIDIA Developer Blog. A modell azonban alapértelmezetten nem optimalizált specifikus területekre, mint például a robotmanipuláció vagy egyedi kameranézetek, ezért célzott finomhangolásra van szüksége.
A robotok irányítási stratégiáinak betanításához demonstrációs adatok kellenek, de a valós robotpályák gyűjtése lassú és költséges. A finomhangolt videó-világmodellel szintetikus pályák generálhatók, ami skálázható alternatívát kínál. Egy 2 milliárd paraméteres modell teljes finomhangolása rendkívül drága, és fennáll a veszélye, hogy a modell elveszíti általános tudását.
A LoRA és DoRA áttörése
Ezt a problémát oldja meg a LoRA és a DoRA. Ezek a technikák kis, betanítható adaptermodulokat injektálnak a lefagyasztott alapmodellbe. Ez nemcsak a memóriaigényt csökkenti, hanem az adapterfájlokat is kicsivé és hordozhatóvá teszi. Így a finomhangolás akár egyetlen 80 GB-os GPU-n is elvégezhető, és az adapterek rugalmasan cserélhetők különböző feladatokhoz az inferencia során.
Átalakuló tanulási folyamatok
A finomhangolt modell képes szintetikus robotpályákat generálni, amelyek felhasználhatók a robotok tanulási feladataihoz. A folyamat Python 3.10+, PyTorch 2.5+ és CUDA környezetben, a diffusers és accelerate könyvtárak segítségével valósítható meg. A képzéshez 92 robotmanipulációs videót és 50 (prompt, kép) párt használnak, amelyek pick-and-place feladatokat írnak le. A LoRA súlyokat a diffusers formátumban mentik el minden ellenőrzőpont-képzési ciklus után a NVIDIA Cosmos Predict 2.5 modellben 2024. március 15-én.