Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning
A nagyméretű nyelvi modellek gondolatmenetei felszínesebbek, mint hitték. Gyakran tartalmaznak explicit mérlegelést a jövőbeli kimenetekről.

A nagyméretű nyelvi modellek (LLM) láncolt gondolkodása (CoT) során gyakran jelenik meg a jövőbeli kimenetek explicit mérlegelése. Azonban eddig nem volt világos, hogy ez valódi tervezésnek minősül-e, hogyan épül fel, és mely aspektusai befolyásolják a teljesítményt — derül ki egy új, az arXiv-on arXiv:2605.06840v1 számon előnyomtatott tanulmányból.
A kutatók egy új módszert vezettek be a LLM-ek tervezési képességeinek jellemzésére. Ehhez a 'négy egy sorban' társasjátékban vizsgálták a modellek gondolatmenetét, és abból keresési fákat vontak ki, majd számszerűsítették azokat. A kinyert keresési fákra illesztett számítási modellek segítségével jellemezték a tervek felépítését és a lépésválasztásokra gyakorolt hatásukat.
A kutatás megállapította, hogy a LLM-ek keresése sekélyebb, mint az emberé. A modellek teljesítményét a keresés szélessége, nem pedig a mélysége jósolja meg a legjobban. Ez azt jelenti, hogy a modellek inkább több lehetséges lépést vizsgálnak meg felületesen, mintsem mélyebbre ásnának egy-egy gondolatmenetben.
A legmeglepőbb eredmény szerint, bár a LLM-ek mélyebb csomópontokat is kibontanak a gondolatmeneteikben, a lépésválasztásaikat a legjobban egy rövidlátó modell magyarázza. Ez a modell teljes mértékben figyelmen kívül hagyja ezeket a mélyebb csomópontokat. Egy ok-okozati beavatkozási tanulmány is megerősítette ezt a megállapítást.
Ez a felfedezés rávilágít a LLM-ek „tervezési” mechanizmusainak korlátaira, és arra utal, hogy a jövőbeli fejlesztéseknek a keresési mélység és a valódi stratégiai gondolkodás javítására kellene összpontosítaniuk. A kutatók szerint a négy egy sorban játék jó teljesítménytesztet biztosít a modellek stratégiai képességeinek vizsgálatához.