Akár 47%-kal is ronthatja a hosszú kontextuskezelést négy apró architekturális döntés
A Llama 3 könnyű kiterjeszthetősége nem általánosítható más architektúrákra, ami jelentős kihívást jelent a fejlesztőknek.

Az AI-modellek hosszú szövegek kezelésének képességét jelentősen befolyásolják az architekturális döntések, nem csupán a betanítási adatok – állítja az Allen Institute for AI (AI2) új kutatása, amelyet előnyomtatott formában tettek közzé.
A kutatók szerint négy specifikus architekturális választás – a QK normalizálás, a csoportosított lekérdezéses figyelem (GQA), a csúszó ablakos figyelem és az előképzési kontextushossz – együttesen akár 47%-kal is ronthatja a hosszú kontextusú teljesítménytesztek teljesítményét.
A Kontextuslabirintus
A jelenség vizsgálatára az AI2 létrehozta az OlmPool nevű, 26 darab 7B paraméteres modellből álló csomagot. Ezeket a modelleket 140 milliárd tokenen képezték elő ugyanazon adatokon, majd 64K kontextusra terjesztették ki, szintén azonos eljárással.
A négy vizsgált architekturális döntés mindegyike a figyelem mechanizmusát érinti, amely meghatározza, hogy a modell az input mely részeire fókuszál. A QK normalizálás az Olmo 3, Qwen 3 és Gemma 3 modellekben is megtalálható, míg a GQA-t a Llama 3, Qwen 3 és Gemma 3 is használja.
A Figyelemmozaik
Az eredmények azt mutatják, hogy a rövid kontextusú metrikák nem jósolják meg a hosszú kontextus teljesítményét. A standard betanítási jelek, mint a veszteségfüggvény vagy a validációs perplexitás, szinte semmilyen információt nem adnak arról, hogyan fog egy modell teljesíteni 32K vagy 64K kontextushosszon.
Az AI2 szerint a Llama 3 konfigurációja az egyik legerősebb az OlmPoolban, de nem minden esetben optimális. Több más modell is mérhetően felülmúlja, ami megerősíti, hogy a Llama 3 hosszú kontextuskezelési sikere elsősorban architekturális eredetű, és a 2024. évben várható további kutatások a Llama modellcsalád kiterjesztési receptjeinek adaptálásáról.