Kutatás2026. ápr. 18.frissítve: 07:50

Új AI-módszer garantálja a költséghatékony biztonsági felügyeletet

A Calibrate-Then-Delegate (CTD) nevű megközelítés költséghatékonyabbá teszi a nagyméretű nyelvi modellek (LLM) biztonsági ellenőrzését, miközben garantálja a számítási költségeket.

Fotó: Hakim Menikh / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. április 18.

Megosztás

A nagyméretű nyelvi modellek (LLM) biztonságának skálázható felügyelete komoly kihívás, hiszen egyensúlyt kell teremteni a költségek és a pontosság között — írja az ArXiv egy új tanulmánya. A probléma megoldására egy új, Calibrate-Then-Delegate (CTD) nevű modellkaszkád-megközelítést mutattak be, amely valós idejű döntéseket tesz lehetővé, miközben garantálja a számítási költségeket.

A meglévő kaszkádrendszerek a kezdeti, olcsóbb szűrőmodellek bizonytalansága alapján delegálnak feladatokat drágább szakértőknek. Ez azonban nem optimális, mivel a bizonytalanság nem jelzi pontosan, hogy a szakértő valóban kijavítaná-e a hibát.

A számítási költségek labirintusa

A CTD egy új „delegálási érték” (DV) szondát alkalmaz, amely közvetlenül előrejelzi az eszkaláció előnyeit, ugyanazokon a belső reprezentációkon működve, mint a biztonsági szonda.

A költségvetési korlátok betartásához a CTD egy küszöbértéket kalibrál a DV jelzésen, amelyet visszatartott adatok felhasználásával, többszörös hipotézisvizsgálattal állít be.

A biztonsági ellenőrzés új horizontja

Ez véges mintavételi garanciákat biztosít a delegálási arányra, optimalizálva a drága szakértői beavatkozások számát, az ArXiv tanulmánya 2024. március 15-én jelent meg.

tetszett a cikk? oszd meg →

Megosztás