A Meta új technikája 93%-ra növeli az LLM-ek kódellenőrzési pontosságát
A Meta új technikáját a Claude Opus-4.5 és Sonnet-4.5 modellek tesztelték, amelyek 93%-os pontosságot értek el a kódellenőrzési feladatokban.

A Meta kutatói a Claude Opus‑4.5 és Sonnet‑4.5 modellek segítségével tesztelték az új „semi‑formal reasoning” technikát, amely a kódellenőrzési feladatok pontosságát 93%-ra emelte. A módszerben az AI-ügynöknek logikai tanúsítványt kell kitöltenie: állítások, konkrét futási útvonalak, formális következtetések. Így a modell nem csak gyanakodik, hanem bizonyítékot keres a kódból, mielőtt választ adna.
Miért fontos? A kódellenőrzéshez szükséges sandbox‑ok létrehozása költséges és erőforrásigényes. A semi‑formal reasoning lehetővé teszi a kód szintaktikai és szemantikai elemzését futtatás nélkül, így csökkentve a infrastruktúra költségeit és növelve a megbízhatóságot. A Meta állítása szerint ez a módszer jelentősen csökkenti a hibalehetőségeket a hibafix-ek helyes lokalizálásában és a kódbázis kérdés-válasz feladatokban.
A technika lényegében egy köztes megoldás a nyílt és a szigorúan formális módszerek között. Az unstructured LLM-ek szabadon gyanakodnak, míg a formal verification matematikai nyelven fogalmazza meg a problémát, ami gyakran impraktikus többnyelvű, komplex repo‑k esetén. A semi‑formal reasoning egy struktúrált sablont használ, amely megköveteli a bizonyítékgyűjtést és a logikai következtetések követelményeit, így a modell lépésről lépésre követi a függőségeket és a függvényhívásokat.
A kutatók három fő feladaton mérték a módszer hatékonyságát: patch‑ek egyenértékességének ellenőrzése, hibafix‑ek lokalizálása és kód‑kérdés-válasz. A patch‑ekben a semi‑formal reasoning 93% -os pontosságot ért el, mígnem a hagyományos, egy soros logikát használó alapmodell csak 86%-t, a difflib alapú szövegösszehasonlító algoritmus pedig 73%-t.
Mi következik? A Meta a következő hónapokban tervez a semi‑formal reasoning integrálását a saját fejlesztői eszközeibe, hogy a vállalati szintű kódellenőrzés költségeit jelentősen csökkentsék. A kutatók szerint a módszer alkalmazható más LLM-ekre is, így a jövőben széles körben elérhetővé válhat a megbízható, futtatás‑nélküli kódelemzés. A technológia további finomhangolása és a valós idejű alkalmazások tesztelése a következő negyedévben várható.