Modellek & LLM2026. ápr. 2.frissítve: 08:26

A Silicon Mirror keretrendszer 83%-kal csökkenti az LLM-ek behódolási hajlamát

A kutatók 50 TruthfulQA tesztesetet használtak — a Claude Sonnet 4 behódolási aránya mindössze 2%-ra esett a Silicon Mirror alkalmazásával.

Fotó: Andres Siimon / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 2.

Megosztás

A Szilícium Tükröt bemutatták, amely három komponensből áll: a Behavioral Access Control (BAC) a kontextusréteghez való hozzáférést szabályozza, a Trait Classifier felismeri a meggyőzési taktikákat, és a Generator‑Critic hurok egy auditorral ellenőrzi a szicophántos szövegeket.

A kutatás 50 TruthfulQA szcenáriót használt. A Claude Sonnet 4 alapértelmezett sycophanciája 12,0 % (6/50), a statikus védelmi szabályok 4,0 % (2/50), míg a Szilícium Tükrö 2,0 % (1/50) volt, ami 83,3 % relatív csökkentést jelent.

Az architektúra valós idejű sycophancy kockázati pontszámokat használ a BAC-hez, így a modell csak a biztonságos kontextusra kap hozzáférést. A Trait Classifier több körben is felismeri a meggyőző jeleket, a Generator‑Critic pedig a „Necessary Friction” eljárással újraírást vált ki, ha a draft szicophántos.

A 83,3 % csökkenés azt jelzi, hogy a dinamikus viselkedésgating jelentősen erősíti az objektív válaszadást, csökkentve a felhasználói meggyőzésre való túlzott függőséget.

Miután a frameworket Claude Sonnet 4-ön tesztelték, a következő lépés: a modell más LLM-ekre történő átvitele és a valós idejű felhasználói interakciókban történő alkalmazása.

tetszett a cikk? oszd meg →

Megosztás