A gpt-oss modell 60,4%-os pontszámot ér el a SWE Verified HIGH teszten
A kutatók egy natív harmony agent harness-t is kifejlesztettek, amely lehetővé teszi a modell natív formátumának használatát.

A független kutatók elsőként reprodukálták az OpenAI gpt-oss-20b modell eredményeit.
Az arXiv publikációban kiderült, hogy a kutatók visszafejtették a modell belső eszközeit. Amikor a modellnek nem adták meg a tool definíciókat, a gpt-oss mégis a képzés során tanult eszközöket hívta meg, magas statisztikai megbízhatósággal – nem csupán véletlen.
Ezt követően a csapat létrehozta a native harmony agent harness‑t, amely a modell natív formátumát használja, elkerülve a Chat Completions átalakításának veszteségét. A kombinációval 60,4 % pontszámot értek el a SWE Verified HIGH teszten, 53,3 % a MEDIUM, és 91,7 % az AIME25 with tools feladaton.
Az eredmények közel állnak az OpenAI publikált 60,7 %, 53,2 % és 90,4 % értékekhez, ezzel bebizonyítva, hogy a modell valóban képes a belső eszközöket önállóan alkalmazni.
Mi a következő lépés? A kutatók most a modellek valós idejű alkalmazásainak finomhangolására és a tool‑hívás mechanizmusának továbbfejlesztésére összpontosítanak.