A Qwen csapata 10 ezer tokenes gondolkodási láncokat ért el új algoritmussal
A Qwen csapata a FIPO algoritmussal elérte, hogy a modell függetlenül ellenőrizze köztes eredményeit és alternatív megoldásokat ellenőrizzen — az eddigi legjobb eredmény 56 százalékos pontosság az AIM

A FIPO algoritmussal elérhetővé vált, hogy a modell függetlenül ellenőrizze köztes eredményeit és alternatív megoldásokat ellenőrizzen, a Qwen csapat által fejlesztett új képzési algoritmushoz hasonlóan — írja a The Decoder.
A Qwen csapat szerint a jelenlegi megerősített tanulási modellekben a tokenek egyenlő súllyal bírnak, függetlenül attól, hogy milyen hatást gyakorolnak a következő gondolkodási láncra, ami korlátozza a modell gondolkodásának mélységét.
A gondolkodás mélysége
A FIPO algoritmussal a Qwen csapat elérte, hogy a modell gondolkodási láncainak hossza megduplázódjon, és a modell pontossága 56 százalékra nőjön az AIME 2024 matematikai teljesítményteszten.
A modell spontán ellenőrzése
Az új algoritmussal a Qwen csapat elérte, hogy a modell spontán módon ellenőrizze saját köztes eredményeit, és alternatív megoldásokat ellenőrizzen, ami a korábbi modellekben nem volt megfigyelhető.
A Qwen csapat tervezi, hogy a FIPO algoritmussal kapcsolatos kutatásait és a képzési rendszert nyílt forráskódúként teszi elérhetővé a GitHubon 2024. év végéig.