ÉlőUtoljára: 1 órájaMa: 19
Kutatásfrissítve: 03:50

Új VPS-módszer javítja a LLM-ek érvelését – a sakkban már bizonyított

A módszer a predikciós pontosság és az érvelés minőségét egyaránt optimalizálja, ellentétben a hagyományos megerősítéses tanulással, amely gyakran csak a végeredményre fókuszál.

Új VPS-módszer javítja a LLM-ek érvelését – a sakkban már bizonyított
Fotó: Fotó: Hassan Pasha / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

Új keretrendszert dolgoztak ki a nagyméretű nyelvi modellek (LLM) érvelési képességeinek javítására, amely a helyes válaszok mellett a logikus gondolkodást is figyelembe veszi — írja az ArXiv-en megjelent tanulmány.

A Verifiable Process Supervision (VPS) nevű megközelítés a betanítás utáni fázisban optimalizálja a modelleket. A kutatók szerint a megerősítéses tanulás (RL) gyakran csak a végeredményt jutalmazza, ami ahhoz vezethet, hogy a feladat pontossága nő, miközben az érvelés kevésbé pontos, hiányos vagy akár inkonzisztens lesz.

A gondolkodás labirintusában

A VPS először strukturált érvelési formát alakít ki felügyelt finomhangolással. Ez lehetővé teszi a köztes állítások szintaktikai kinyerését, amelyeket aztán valós adatokkal vetnek össze, így folyamatszintű jutalmakat generálnak.

Stratégiai sakktábla

A módszert sakkfeladatokon értékelték, ami egy kontrollált környezet a komplex érvelés tesztelésére. A VPS-sel a modellek nemcsak a helyes lépéseket, hanem a mögöttes stratégiai gondolkodást is jobban elsajátítják, az ArXiv 2024. február 10-én publikált tanulmány szerint.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom