Kutatás2026. máj. 15.frissítve: 21:50

Akár 47%-kal gyorsítja az LLM-eket az Amazon új skálázási törvénye

Az Amazon Nova Surefire modelljei jelentős, akár 47%-os teljesítménynövekedést értek el a LLaMA-3.2 pontosságának megőrzése mellett, ami kulcsfontosságú a valós idejű AI-alkalmazások számára.

Fotó: Bryan Angelo / Unsplash

forrás: Amazon Science·AI Forradalom szerk.·2026. május 15.

Megosztás

Új skálázási törvényt mutatott be az Amazon, amely a modellarchitektúra választásait közvetlenül a veszteséghez köti, így akár 47%-kal is képes gyorsítani a nagyméretű nyelvi modelleket (LLM-eket) a pontosság feláldozása nélkül — írja az Amazon Science.

A fejlesztés alapját képező kutatást az International Conference on Learning Representations (ICLR) konferencián mutatták be. A Tao Yu és Youngsuk Park által vezetett csapat szerint az Amazon Nova Surefire modelljei megegyeznek vagy felülmúlják a LLaMA-3.2 pontosságát, miközben akár 47%-kal javítják az átviteli sebességet.

A modellarchitektúra átalakulása

A korábbi skálázási törvények, mint például a Google DeepMind Chinchilla-ja, a modell veszteségét a paraméterek számához és a betanítási adatok mennyiségéhez kötötték, de nem foglalkoztak a modell belső architektúrájával. Az Amazon kutatói rámutattak, hogy két azonos paraméterszámú és pontosságú modell akár 40%-kal is eltérhet az inferencia sebességében, pusztán az architektúra miatt.

A sebesség és pontosság egyensúlya

Az új skálázási törvény a Transformer architektúra három kulcsfontosságú elemére fókuszál: a rejtett méretre (hidden size), a MLP-to-attention arányra, valamint a csoportosított lekérdezéses figyelemre (GQA). A kutatók szerint az optimális MLP-to-attention arány LLaMA-3.2 stílusú modellek esetében körülbelül 1.0, ami jelentősen alacsonyabb a jelenlegi nyílt forráskódú verziók (például a LLaMA-3.2-1B 4.8-as aránya) értékénél.

A kutatók több mint 200 modellt képeztek be, 80 millió és 3 milliárd paraméter között, 8 milliárd és 100 milliárd token felhasználásával. Az eredmények két modellcsaládot azonosítottak: a Panda modelleket, amelyek a pontosságot maximalizálják (de alacsonyabb átviteli sebességgel), és a Surefire modelleket, amelyek a pontosság és hatékonyság közötti Pareto-optimális kompromisszumot képviselik.

A Surefire-1B modell 21%-kal gyorsabb a LLaMA-3.2-1B-nél vLLM-mel, és 47%-kal SGLang-gel, miközben megőrzi a LLaMA-3.2 pontosságát. A Surefire-3B modell 12-17%-os sebességnövekedést mutat a LLaMA-3.2-3B-hez képest, szintén a pontosság feláldozása nélkül. Ezek az eredmények a H200 GPU-n, 128-as kötegmérettel és 4096 bemeneti, 1024 kimeneti tokennel mért adatokon alapulnak, és a tesztek 2024. március 15-én fejeződtek be.

tetszett a cikk? oszd meg →

Megosztás