ÉlőUtoljára: 1 órájaMa: 18
Eszközökfrissítve: 09:30

C++ és CUDA: Új LLM-motorral gyorsítják a chatbotokat

A tiny-vLLM projekt 2023-ban indult, és C++ valamint CUDA segítségével kínál nagy teljesítményű LLM-inferencia motort. A motor képes betölteni valós LLM modelleket, például a Llama 3.2 1B Instructot.

C++ és CUDA: Új LLM-motorral gyorsítják a chatbotokat
Fotó: Fotó: Mohammad Rahmani / Unsplash
forrás: Hacker News·AI Forradalom szerk.·
Megosztás

A tiny-vLLM egy új, nyílt forráskódú projekt, amely C++ és CUDA programozási nyelveken hoz létre nagy teljesítményű LLM-inferencia motort. A fejlesztő, jmaczan, a projektet egy tanulóeszközként is pozicionálja, amely bemutatja a folyamatot, ahogyan egy LLM-et futtató szerver megvalósítható.

A tiny-vLLM képes betölteni valós LLM modelleket, például a Llama 3.2 1B Instructot Safetensors formátumból. Támogatja a teljes LLM forward pass-t, beleértve a prefill és decode fázisokat, valamint olyan fejlett technikákat, mint a KV cache, a statikus és folyamatos batching, az online softmax és a PagedAttention. Ezek a funkciók mind CUDA kernelen keresztül valósulnak meg a maximális sebesség érdekében.

Kapcsolódó: LLM modellek futtatása

A projekt nem csupán egy futtatható kódot kínál, hanem egy részletes tanfolyamot is, amely lépésről lépésre vezeti végig a felhasználót az inferencia motor implementálásán. A tananyag lefedi az alapvető előfeltételeket, mint a Safetensors formátum, a bfloat16 használata, valamint a GPU és CPU memória kezelése. Emellett mélyrehatóan foglalkozik a CUDA kernel mérnökséggel, beleértve az embeddings, RMSNorm, RoPE és a különböző mátrixműveletek optimalizálását.

Kapcsolódó: Szorzásmentes LLM

A fejlesztő kiemeli, hogy a cél a hardver hatékony kihasználása és a magas teljesítmény elérése, ami gyors válaszidőt és több kérés egyidejű kezelését teszi lehetővé. A tanfolyam célja, hogy a résztvevők megértsék a LLM-ek működésének alapjait, a modellek súlyaitól kezdve az architektúrákon át az inferencia szerverekig. A projektből kimarad a modellek betanítása, de hivatkozik más forrásokra, mint például Andrej Karpathy nanoGPT vagy George Hotz tinygrad projektjei.

Kapcsolódó: LLM pontosság javítása

A tiny-vLLM egy 1 milliárd paraméteres Llama 3.2 modellt képes futtatni, ami jelentős lépés a kisebb, de hatékony LLM-megoldások terén. A projekt a GitHubon érhető el, ahol a forráskód mellett a tananyag is megtalálható, így bárki számára lehetővé teszi saját LLM-szerverének megépítését és működtetését.

Kapcsolódó: LLM betanítás gyorsítása

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom