NVIDIA Star Elastic: egyetlen modellben 30, 23 és 12 milliárd paraméteres változat
Az új megközelítés egyetlen ellenőrzőpontban tárolja a 30 milliárd, 23 milliárd és 12 milliárd paraméteres modelleket, így nincs szükség külön finomhangolásra.

A NVIDIA kutatói egy új módszert, a Star Elasticet mutatták be, amely jelentősen csökkentheti a nagyméretű nyelvi modellek (LLM) betanításának és telepítésének költségeit — írja a MarkTechPost. Eddig minden modellváltozat, legyen a 8B, 30B vagy 70B paraméteres, külön betanítást, tárolást és telepítési infrastruktúrát igényelt.
A Star Elastic egy betanítás utáni eljárás, amely több beágyazott almodellt ágyaz be egyetlen szülő modellbe, különböző paraméterköltségvetésekkel, mindezt egyetlen betanítási futtatás során. A Nemotron Nano v3-ra (egy hibrid Mamba–Transformer–MoE modell 30 milliárd teljes és 3,6 milliárd aktív paraméterrel) alkalmazva a Star Elastic 23 milliárd (2,8 milliárd aktív) és 12 milliárd (2,0 milliárd aktív) beágyazott változatot hoz létre, körülbelül 160 milliárd token felhasználásával.
A modell szíve: egyetlen checkpoint
A módszer lényege, hogy ahelyett, hogy három különálló 30B, 23B és 12B modellt képeznének, egy olyan modellt képeznek, amely tartalmazza a kisebbeket, mint saját részhalmazait. A kisebb almodellek újrahasznosítják a szülő modell legfontosabb súlyait, amelyeket egy fontosság-becslési eljárással azonosítanak.
Átláthatóság és hatékonyság
A Star Elastic egy végponttól végpontig betanítható routert használ a beágyazott almodell-architektúrák meghatározására, ami kulcsfontosságú különbség a korábbi tömörítési módszerektől. A router a célköltségvetést (például „adj egy 2,8B aktív paraméteres modellt”) egy one-hot bemenetként fogadja, és differenciálható maszkokat ad ki, amelyek kiválasztják, mely komponensek aktívak az adott költségvetési szinten.
Az optimalizált konfiguráció, az úgynevezett ℳS → ℳL (kis modell a gondolkodáshoz, nagy modell a válaszadáshoz), olcsóbb modellt allokál a kiterjesztett gondolkodási nyomok generálására, és a teljes kapacitású modellt tartja fenn a végső válasz szintetizálására. A 23B → 30B konfiguráció akár 16%-kal nagyobb pontosságot és 1,9-szer alacsonyabb késleltetést ér el a Nemotron Nano v3 alapértelmezett költségvetési vezérléséhez képest.
A memóriaigény szempontjából is jelentős az előrelépés: külön 12B, 23B és 30B BF16 checkpointok tárolása 126,1 GB-ot igényel, míg az egyetlen elasztikus checkpoint csak 58,9 GB-ot. A 30B NVFP4 elasztikus checkpoint 18,7 GB-ba fér, ami lehetővé teszi a 12B NVFP4 változat futtatását egy RTX 5080-on. Egy RTX Pro 6000-en a 12B NVFP4 változat 7426 tokent/másodperc sebességet ér el, 2024. március 15-én publikálták az eredményeket.