ÉlőUtoljára: 37 perceMa: 0
Kutatásfrissítve: 17:50

Akár 47%-kal is ronthatja a hosszú kontextuskezelést négy apró architekturális döntés

A Llama 3 könnyű kiterjeszthetősége nem általánosítható más architektúrákra, ami jelentős kihívást jelent a fejlesztőknek.

Akár 47%-kal is ronthatja a hosszú kontextuskezelést négy apró architekturális döntés
Fotó: Fotó: Harrison Broadbent / Unsplash
forrás: Hetzner: Allen AI (AI2)·AI Forradalom szerk.·
Megosztás

Az AI-modellek hosszú szövegek kezelésének képességét jelentősen befolyásolják az architekturális döntések, nem csupán a betanítási adatok – állítja az Allen Institute for AI (AI2) új kutatása, amelyet előnyomtatott formában tettek közzé.

A kutatók szerint négy specifikus architekturális választás – a QK normalizálás, a csoportosított lekérdezéses figyelem (GQA), a csúszó ablakos figyelem és az előképzési kontextushossz – együttesen akár 47%-kal is ronthatja a hosszú kontextusú teljesítménytesztek teljesítményét.

A Kontextuslabirintus

A jelenség vizsgálatára az AI2 létrehozta az OlmPool nevű, 26 darab 7B paraméteres modellből álló csomagot. Ezeket a modelleket 140 milliárd tokenen képezték elő ugyanazon adatokon, majd 64K kontextusra terjesztették ki, szintén azonos eljárással.

A négy vizsgált architekturális döntés mindegyike a figyelem mechanizmusát érinti, amely meghatározza, hogy a modell az input mely részeire fókuszál. A QK normalizálás az Olmo 3, Qwen 3 és Gemma 3 modellekben is megtalálható, míg a GQA-t a Llama 3, Qwen 3 és Gemma 3 is használja.

A Figyelemmozaik

Az eredmények azt mutatják, hogy a rövid kontextusú metrikák nem jósolják meg a hosszú kontextus teljesítményét. A standard betanítási jelek, mint a veszteségfüggvény vagy a validációs perplexitás, szinte semmilyen információt nem adnak arról, hogyan fog egy modell teljesíteni 32K vagy 64K kontextushosszon.

Az AI2 szerint a Llama 3 konfigurációja az egyik legerősebb az OlmPoolban, de nem minden esetben optimális. Több más modell is mérhetően felülmúlja, ami megerősíti, hogy a Llama 3 hosszú kontextuskezelési sikere elsősorban architekturális eredetű, és a 2024. évben várható további kutatások a Llama modellcsalád kiterjesztési receptjeinek adaptálásáról.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom