Akár 47%-kal gyorsítja a LLM-eket az Amazon új skálázási törvénye
Az Amazon Nova Surefire modelljei jelentős, akár 47%-os teljesítménynövekedést értek el a LLaMA-3.2 pontosságának megőrzése mellett, ami kulcsfontosságú a valós idejű AI-alkalmazások számára.

Új skálázási törvényt mutatott be az Amazon, amely a modellarchitektúra választásait közvetlenül a veszteséghez köti, így akár 47%-kal is képes gyorsítani a nagyméretű nyelvi modelleket (LLM-eket) a pontosság feláldozása nélkül — írja az Amazon Science.
A fejlesztés alapját képező kutatást az International Conference on Learning Representations (ICLR) konferencián mutatták be. A Tao Yu és Youngsuk Park által vezetett csapat szerint az Amazon Nova Surefire modelljei megegyeznek vagy felülmúlják a LLaMA-3.2 pontosságát, miközben akár 47%-kal javítják az átviteli sebességet.
A modellarchitektúra átalakulása
A korábbi skálázási törvények, mint például a Google DeepMind Chinchilla-ja, a modell veszteségét a paraméterek számához és a betanítási adatok mennyiségéhez kötötték, de nem foglalkoztak a modell belső architektúrájával. Az Amazon kutatói rámutattak, hogy két azonos paraméterszámú és pontosságú modell akár 40%-kal is eltérhet az inferencia sebességében, pusztán az architektúra miatt.
A sebesség és pontosság egyensúlya
Az új skálázási törvény a Transformer architektúra három kulcsfontosságú elemére fókuszál: a rejtett méretre (hidden size), a MLP-to-attention arányra, valamint a csoportosított lekérdezéses figyelemre (GQA). A kutatók szerint az optimális MLP-to-attention arány LLaMA-3.2 stílusú modellek esetében körülbelül 1.0, ami jelentősen alacsonyabb a jelenlegi nyílt forráskódú verziók (például a LLaMA-3.2-1B 4.8-as aránya) értékénél.
A kutatók több mint 200 modellt képeztek be, 80 millió és 3 milliárd paraméter között, 8 milliárd és 100 milliárd token felhasználásával. Az eredmények két modellcsaládot azonosítottak: a Panda modelleket, amelyek a pontosságot maximalizálják (de alacsonyabb átviteli sebességgel), és a Surefire modelleket, amelyek a pontosság és hatékonyság közötti Pareto-optimális kompromisszumot képviselik.
A Surefire-1B modell 21%-kal gyorsabb a LLaMA-3.2-1B-nél vLLM-mel, és 47%-kal SGLang-gel, miközben megőrzi a LLaMA-3.2 pontosságát. A Surefire-3B modell 12-17%-os sebességnövekedést mutat a LLaMA-3.2-3B-hez képest, szintén a pontosság feláldozása nélkül. Ezek az eredmények a H200 GPU-n, 128-as kötegmérettel és 4096 bemeneti, 1024 kimeneti tokennel mért adatokon alapulnak, és a tesztek 2024. március 15-én fejeződtek be.