Kutatás2026. máj. 15.frissítve: 05:50

Új VPS-módszer javítja az LLM-ek érvelését – a sakkban már bizonyított

A módszer a predikciós pontosság és az érvelés minőségét egyaránt optimalizálja, ellentétben a hagyományos megerősítéses tanulással, amely gyakran csak a végeredményre fókuszál.

Fotó: Hassan Pasha / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 15.

Megosztás

Új keretrendszert dolgoztak ki a nagyméretű nyelvi modellek (LLM) érvelési képességeinek javítására, amely a helyes válaszok mellett a logikus gondolkodást is figyelembe veszi — írja az ArXiv-en megjelent tanulmány.

A Verifiable Process Supervision (VPS) nevű megközelítés a betanítás utáni fázisban optimalizálja a modelleket. A kutatók szerint a megerősítéses tanulás (RL) gyakran csak a végeredményt jutalmazza, ami ahhoz vezethet, hogy a feladat pontossága nő, miközben az érvelés kevésbé pontos, hiányos vagy akár inkonzisztens lesz.

A gondolkodás labirintusában

A VPS először strukturált érvelési formát alakít ki felügyelt finomhangolással. Ez lehetővé teszi a köztes állítások szintaktikai kinyerését, amelyeket aztán valós adatokkal vetnek össze, így folyamatszintű jutalmakat generálnak.

Stratégiai sakktábla

A módszert sakkfeladatokon értékelték, ami egy kontrollált környezet a komplex érvelés tesztelésére. A VPS-sel a modellek nemcsak a helyes lépéseket, hanem a mögöttes stratégiai gondolkodást is jobban elsajátítják, az ArXiv 2024. február 10-én publikált tanulmány szerint.

tetszett a cikk? oszd meg →

Megosztás