Frissítve: 14 perce·Ma: 58
Modellek & LLM
AI által generált szöveg

A gpt-oss modell 60,4%-os pontszámot ér el a SWE Verified HIGH teszten

A kutatók egy natív harmony agent harness-t is kifejlesztettek, amely lehetővé teszi a modell natív formátumának használatát.

A gpt-oss modell 60,4%-os pontszámot ér el a SWE Verified HIGH teszten
Fotó: Florian Olivo / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

A független kutatók elsőként reprodukálták az OpenAI gpt-oss-20b modell eredményeit.

Az arXiv publikációban kiderült, hogy a kutatók visszafejtették a modell belső eszközeit. Amikor a modellnek nem adták meg a tool definíciókat, a gpt-oss mégis a képzés során tanult eszközöket hívta meg, magas statisztikai megbízhatósággal – nem csupán véletlen.

Ezt követően a csapat létrehozta a native harmony agent harness‑t, amely a modell natív formátumát használja, elkerülve a Chat Completions átalakításának veszteségét. A kombinációval 60,4 % pontszámot értek el a SWE Verified HIGH teszten, 53,3 % a MEDIUM, és 91,7 % az AIME25 with tools feladaton.

Az eredmények közel állnak az OpenAI publikált 60,7 %, 53,2 % és 90,4 % értékekhez, ezzel bebizonyítva, hogy a modell valóban képes a belső eszközöket önállóan alkalmazni.

Mi a következő lépés? A kutatók most a modellek valós idejű alkalmazásainak finomhangolására és a tool‑hívás mechanizmusának továbbfejlesztésére összpontosítanak.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom