Modellek & LLM2026. ápr. 2.frissítve: 08:26

A gpt-oss modell 60,4%-os pontszámot ér el a SWE Verified HIGH teszten

A kutatók egy natív harmony agent harness-t is kifejlesztettek, amely lehetővé teszi a modell natív formátumának használatát.

Fotó: Florian Olivo / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 2.

Megosztás

A független kutatók elsőként reprodukálták az OpenAI gpt-oss-20b modell eredményeit.

Az arXiv publikációban kiderült, hogy a kutatók visszafejtették a modell belső eszközeit. Amikor a modellnek nem adták meg a tool definíciókat, a gpt-oss mégis a képzés során tanult eszközöket hívta meg, magas statisztikai megbízhatósággal – nem csupán véletlen.

Ezt követően a csapat létrehozta a native harmony agent harness‑t, amely a modell natív formátumát használja, elkerülve a Chat Completions átalakításának veszteségét. A kombinációval 60,4 % pontszámot értek el a SWE Verified HIGH teszten, 53,3 % a MEDIUM, és 91,7 % az AIME25 with tools feladaton.

Az eredmények közel állnak az OpenAI publikált 60,7 %, 53,2 % és 90,4 % értékekhez, ezzel bebizonyítva, hogy a modell valóban képes a belső eszközöket önállóan alkalmazni.

Mi a következő lépés? A kutatók most a modellek valós idejű alkalmazásainak finomhangolására és a tool‑hívás mechanizmusának továbbfejlesztésére összpontosítanak.

tetszett a cikk? oszd meg →

Megosztás