Új VPS-módszer javítja a LLM-ek érvelését – a sakkban már bizonyított
A módszer a predikciós pontosság és az érvelés minőségét egyaránt optimalizálja, ellentétben a hagyományos megerősítéses tanulással, amely gyakran csak a végeredményre fókuszál.

Új keretrendszert dolgoztak ki a nagyméretű nyelvi modellek (LLM) érvelési képességeinek javítására, amely a helyes válaszok mellett a logikus gondolkodást is figyelembe veszi — írja az ArXiv-en megjelent tanulmány.
A Verifiable Process Supervision (VPS) nevű megközelítés a betanítás utáni fázisban optimalizálja a modelleket. A kutatók szerint a megerősítéses tanulás (RL) gyakran csak a végeredményt jutalmazza, ami ahhoz vezethet, hogy a feladat pontossága nő, miközben az érvelés kevésbé pontos, hiányos vagy akár inkonzisztens lesz.
A gondolkodás labirintusában
A VPS először strukturált érvelési formát alakít ki felügyelt finomhangolással. Ez lehetővé teszi a köztes állítások szintaktikai kinyerését, amelyeket aztán valós adatokkal vetnek össze, így folyamatszintű jutalmakat generálnak.
Stratégiai sakktábla
A módszert sakkfeladatokon értékelték, ami egy kontrollált környezet a komplex érvelés tesztelésére. A VPS-sel a modellek nemcsak a helyes lépéseket, hanem a mögöttes stratégiai gondolkodást is jobban elsajátítják, az ArXiv 2024. február 10-én publikált tanulmány szerint.