A LLM mint bíró tanít be kisebb modelleket, címke nélkül
Az új RL-keretrendszerrel a kisebb nyelvi modellek képesek felülmúlni a hagyományos, címkézett adatokkal történő betanítást, különösen matematikai feladatoknál.

Címkézetlen adatok tömegén értékeli a kisebb modellek teljesítményét egy nagyméretű nyelvi modell (LLM), amely bíróként működik az új megerősítő tanulási (RL) keretrendszerben — írja az ArXiv NLP.
Ez a módszer kiküszöböli a hagyományos, címkézett adatokra épülő betanítás szükségességét, ami jelentős előrelépést jelent a tudásdesztilláció területén. Különösen a matematikai érvelési feladatoknál mutatott figyelemre méltó teljesítményjavulást.
A bíróként funkcionáló LLM egyetlen tokennel adja meg az értékelést, ami rendkívül hatékonnyá teszi a jutalom kiszámítását. Ez a gyors visszajelzés kulcsfontosságú a kisebb modellek finomhangolásához.
Amikor a rendszer ellenőrizhető jutalmakkal is kiegészül, az eredmények azt mutatják, hogy a LLM-alapú értékelők hatékony betanítási jeleket produkálnak a RL finomhangoláshoz. A kutatók szerint ez a megközelítés új utakat nyithat a modellfejlesztésben.