Frissítve: 15 perce·Ma: 49
Kutatás
AI által generált szöveg

A LLM mint bíró tanít be kisebb modelleket, címke nélkül

Az új RL-keretrendszerrel a kisebb nyelvi modellek képesek felülmúlni a hagyományos, címkézett adatokkal történő betanítást, különösen matematikai feladatoknál.

A LLM mint bíró tanít be kisebb modelleket, címke nélkül
Fotó: Emilipothèse / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

Címkézetlen adatok tömegén értékeli a kisebb modellek teljesítményét egy nagyméretű nyelvi modell (LLM), amely bíróként működik az új megerősítő tanulási (RL) keretrendszerben — írja az ArXiv NLP.

Ez a módszer kiküszöböli a hagyományos, címkézett adatokra épülő betanítás szükségességét, ami jelentős előrelépést jelent a tudásdesztilláció területén. Különösen a matematikai érvelési feladatoknál mutatott figyelemre méltó teljesítményjavulást.

A bíróként funkcionáló LLM egyetlen tokennel adja meg az értékelést, ami rendkívül hatékonnyá teszi a jutalom kiszámítását. Ez a gyors visszajelzés kulcsfontosságú a kisebb modellek finomhangolásához.

Amikor a rendszer ellenőrizhető jutalmakkal is kiegészül, az eredmények azt mutatják, hogy a LLM-alapú értékelők hatékony betanítási jeleket produkálnak a RL finomhangoláshoz. A kutatók szerint ez a megközelítés új utakat nyithat a modellfejlesztésben.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom