A Silicon Mirror keretrendszer 83%-kal csökkenti az LLM-ek behódolási hajlamát
A kutatók 50 TruthfulQA tesztesetet használtak — a Claude Sonnet 4 behódolási aránya mindössze 2%-ra esett a Silicon Mirror alkalmazásával.

A Szilícium Tükröt bemutatták, amely három komponensből áll: a Behavioral Access Control (BAC) a kontextusréteghez való hozzáférést szabályozza, a Trait Classifier felismeri a meggyőzési taktikákat, és a Generator‑Critic hurok egy auditorral ellenőrzi a szicophántos szövegeket.
A kutatás 50 TruthfulQA szcenáriót használt. A Claude Sonnet 4 alapértelmezett sycophanciája 12,0 % (6/50), a statikus védelmi szabályok 4,0 % (2/50), míg a Szilícium Tükrö 2,0 % (1/50) volt, ami 83,3 % relatív csökkentést jelent.
Az architektúra valós idejű sycophancy kockázati pontszámokat használ a BAC-hez, így a modell csak a biztonságos kontextusra kap hozzáférést. A Trait Classifier több körben is felismeri a meggyőző jeleket, a Generator‑Critic pedig a „Necessary Friction” eljárással újraírást vált ki, ha a draft szicophántos.
A 83,3 % csökkenés azt jelzi, hogy a dinamikus viselkedésgating jelentősen erősíti az objektív válaszadást, csökkentve a felhasználói meggyőzésre való túlzott függőséget.
Miután a frameworket Claude Sonnet 4-ön tesztelték, a következő lépés: a modell más LLM-ekre történő átvitele és a valós idejű felhasználói interakciókban történő alkalmazása.