Párhuzamos előtag-ellenőrzéssel gyorsítja a LLM-eket a PARSE rendszer
A jelenlegi spekulatív dekódolási módszerek korlátait áthidalva a PARSE a szemantikai szinten párhuzamosítja az előtagok ellenőrzését, ezzel jelentősen növelve a feldolgozási sebességet.

Új spekulatív generálási keretrendszert mutatott be a PARSE (PArallel pRefix Speculative Engine) fejlesztőcsapata, amely a nagy nyelvi modellek (LLM) következtetését gyorsítja fel. A rendszer a párhuzamos előtag-ellenőrzésre épül, méghozzá szemantikai szinten — írja a csapat az arXiv-on előnyomtatott formában megjelent tanulmányában.
A meglévő spekulatív dekódolási módszerek alapvető korlátja a token-szintű ekvivalencia, ami azt jelenti, hogy a célmodellnek minden egyes tokent ellenőriznie kell. Ez rövid elfogadási hosszt és szerény gyorsulást eredményez, állítják a szerzők.
A szemantikai szintű áttörés
A szemantikai vagy szegmens-szintű ellenőrzésre való áttérés jelentősen növelheti az elfogadás granularitását, de a korábbi megközelítések szekvenciális ellenőrzésre támaszkodtak, ami jelentős többletterhelést okozott és korlátozta a gyakorlati előnyöket.
A PARSE bevezeti a párhuzamos előtag-ellenőrzést, amely lehetővé teszi a szemantikai szintű ellenőrzést szekvenciális lépések nélkül. A vázlatmodell által generált teljes tervezet alapján a célmodell egyetlen előremenő passzban értékeli ki a helyességet több előtagon keresztül, egyedi figyelmi maszk (attention mask) segítségével.
Párhuzamos feldolgozás a gyakorlatban
A Google Developers Blog szerint a spekulatív dekódolás lényege, hogy egy kisebb, hatékonyabb „vázlat” modell több jövőbeli tokent is egyszerre előre jelez. A nagyobb „cél” modell ezután egyetlen párhuzamos előremenő passzban ellenőrzi ezeket a vázlat tokeneket. A PARSE ezt a folyamatot emeli új szintre azzal, hogy a token-szintű ellenőrzés helyett szemantikai egységeket vizsgál, így sokkal hosszabb, összefüggőbb szövegrészleteket tud egyszerre validálni.
A kutatók a 2605.04263v1 azonosító alatt tették közzé eredményeiket az arXiv-on 2024. március 15-én.