LLM önszintaxis: 0,5%-os hibaarány felett romlik a teljesítmény az ArXiv szerint
A mesterséges intelligencia modellek önszintaxisa, amely a kibocsátás ismételt finomítását jelenti, csak akkor hasznos, ha az Expected Incorrect Rate (EIR) nem haladja meg a 0,5%-ot.

Az iteratív önszintaxis széles körben alkalmazott módszer az ügynöki LLM rendszerekben, ám eddig nem volt egyértelmű, mikor javít és mikor ront a teljesítményen — derül ki az ArXiv AI új tanulmányából.
A kutatók kibernetikus visszacsatolási hurokként értelmezték az önszintaxist, ahol ugyanaz a LLM szolgál vezérlőként és rendszerként is. Egy kétállapotú Markov-modellt alkalmaztak (Helyes, Helytelen) egy egyszerű diagnosztika felállítására: csak akkor érdemes ismételni, ha az ECR/EIR (Expected Correct Rate / Expected Incorrect Rate) nagyobb, mint az Acc/(1 - Acc) (Pontosság / 1 - Pontosság).
Az EIR ebben a keretben stabilitási marginálként funkcionál, a promptolás pedig könnyűsúlyú vezérlőtervezésként. Hét modell és három adathalmaz (GSM8K, MATH, StrategyQA) vizsgálata során egy éles, közel nulla EIR küszöböt (legfeljebb 0,5%) azonosítottak, amely elválasztja a hasznos és a káros önszintaxist.
Csak az o3-mini (+3,4 százalékpont, EIR = 0%), a Claude Opus 4.6 (+0,6 százalékpont, EIR ~ 0,2%) és az o4-mini (+/-0 százalékpont) maradt romlásmentes. A GPT-5 például 1,8 százalékponttal romlott az önszintaxis során. Egy „verify-first” prompt abláció kauzális bizonyítékot szolgáltatott arra, hogy ez a küszöb pusztán promptolással is befolyásolható a GPT-4o-mini modellen.