Frissítve: 1 órája·Ma: 6
Hogyan működik?
AI által generált szöveg

Kisebb modelleket okosítanak a nagy AI-ok: így működik a LLM desztilláció

A technológia lényege, hogy a kisebb, úgynevezett 'tanuló' modellek a nagyobb, 'tanító' modellek kimeneteiből, valószínűségi eloszlásaiból vagy viselkedéséből tanulnak.

Kisebb modelleket okosítanak a nagy AI-ok: így működik a LLM desztilláció
Fotó: Christian Wiediger / Unsplash
Forrás: MarkTechPostSzerző: AI Forradalom szerk.
Megosztás

A modern nagy nyelvi modelleket már nem kizárólag nyers internetes szövegeken képzik. Egyre gyakrabban használnak a vállalatok erőteljes „tanító” modelleket, hogy segítsenek kisebb vagy hatékonyabb „tanuló” modelleket betanítani — írja a MarkTechPost.

Ez a folyamat, amelyet széles körben LLM desztillációnak vagy modell-modell képzésnek neveznek, kulcsfontosságú technikává vált a nagy teljesítményű modellek alacsonyabb számítási költséggel történő felépítéséhez. A Meta például a hatalmas Llama 4 Behemoth modelljét használta a Llama 4 Scout és Maverick betanításához, míg a Google a Gemini modelleket vetette be a Gemma 2 és Gemma 3 fejlesztése során. Hasonlóképpen, a DeepSeek a DeepSeek-R1-ből desztillált érvelési képességeket kisebb Qwen és Llama alapú modellekbe.

A modell-modell tanulás folyamata

Az alapötlet egyszerű: ahelyett, hogy kizárólag ember által írt szövegekből tanulna, egy tanuló modell egy másik LLM kimeneteiből, valószínűségeiből, érvelési nyomaiból vagy viselkedéséből is tanulhat. Ez lehetővé teszi, hogy a kisebb modellek olyan képességeket örököljenek, mint az érvelés, az utasításkövetés és a strukturált generálás a sokkal nagyobb rendszerektől.

A desztillációs folyamatok összehasonlítása

A soft-label desztilláció során a tanuló modell a tanító modell kimeneti valószínűségi eloszlását utánozza. Ahelyett, hogy csak a helyes következő tokent tanulná, a tanuló a tanító modell teljes szókincsre vonatkozó softmax valószínűségeihez igazodik. A hard-label desztilláció egy egyszerűbb megközelítés, ahol a tanuló LLM csak a tanító modell végső, előre jelzett kimeneti tokenjéből tanul, nem pedig a teljes valószínűségi eloszlásából. A DeepSeek ezt a megközelítést használta a DeepSeek-R1 érvelési képességeinek desztillálására kisebb Qwen és Llama 3.1 modellekbe, 2023. decemberében.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom