ÉlőUtoljára: 33 perceMa: 1
Alkalmazásokfrissítve: 04:10

A Poetiq Meta-Systeme finomhangolás nélkül javítja a LLM-ek kódolási teljesítményét

A Poetiq Meta-Systeme automatikusan optimalizált egy 'harness' réteget, amely a tesztelt LLM-ek mindegyikének teljesítményét javította a LiveCodeBench Pro teljesítményteszten, anélkül, hogy a modelleket finomhangolták volna.

A Poetiq Meta-Systeme finomhangolás nélkül javítja a LLM-ek kódolási teljesítményét
Fotó: Fotó: National Cancer Institute / Unsplash
forrás: MarkTechPost·AI Forradalom szerk.·
Megosztás

A Poetiq új, úgynevezett Meta-Systeme a LiveCodeBench Pro (LCB Pro) kódolási teljesítményteszten ért el új csúcsot, mivel automatikusan épített és optimalizált egy következtetési 'harness'-t — írja a MarkTechPost. Ez a fejlesztés anélkül történt, hogy bármely alapul szolgáló modellt finomhangoltak volna, vagy hozzáfértek volna a modellek belső működéséhez.

A Poetiq szerint a GPT 5.5 High modell a cég 'harness'-ével 93,9%-os eredményt ért el a LCB Pro (25Q2) teljesítményteszten, ami jelentős emelkedés az alap 89,6%-hoz képest. A Gemini 3.1 Pro, amelyen a 'harness'-t optimalizálták, 78,6%-ról 90,9%-ra ugrott, ezzel felülmúlva a Google saját Gemini 3 Deep Think modelljét, amely 88,8%-ot ért el.

A 'harness' átalakulása

A 'harness' egy olyan infrastruktúra, amely egy nyelvi modellt körbevesz egy adott feladat kezelésére. Ez egyfajta vezénylő rétegként működik, szabályozva, hogyan kapja a modell a promptokat, hogyan strukturálja a kimeneteket, és hogyan állítja össze a válaszokat több hívásból. Hagyományosan ezeket a 'harness'-eket mérnökök építik kézzel, de a Poetiq Meta-Systeme állítása szerint automatikusan építi és optimalizálja őket, rekurzív önfejlesztés révén.

Teljesítmény-növekedés

A Meta-Systeme a Gemini 3.1 Pro-t használta alapmodellként a 'harness' felépítéséhez, figyelembe véve a LCB Pro által tesztelt három dimenziót: pontosságot, futási időt és memóriakorlátokat. A 'harness' elkészítése után további optimalizálás nélkül alkalmazták más modelleken is, különböző szolgáltatóktól és generációkból, beleértve nyílt forráskódú és zárt rendszereket is. A Poetiq szerint minden tesztelt modell javult a 'harness' alkalmazásával.

A nehéz problémák kategóriájában, ahol a modellek közötti különbségek a legnagyobbak, a Gemini 3.1 Pro a Poetiq 'harness'-ével 58,3%-ot ért el, szemben az alap 7,7%-kal. A GPT 5.5 High a 'harness'-szel 75,0%-ra nőtt a nehéz feladatokon, a 50,0%-os alapértékhez képest. A kisebb modellek is jelentős javulást mutattak: a Gemini 3.0 Flash 10 százalékponttal, 72,3%-ról 82,3%-ra javult, ezzel megelőzve a Claude Opus 4.7, a Gemini 3.1 Pro és a GPT 5.2 High modelleket. A Kimi K2.6 modell a legnagyobb ugrást produkálta, 50,0%-ról 79,9%-ra, ami közel 30 százalékpontos javulás.

A LCB Pro pontossági adatai a livecodebenchpro.com (25Q2) ranglistájáról származnak, a Poetiq saját maga értékelte ki a nem szereplő modelleket 2024. március 10-én.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom