Új AI-módszer garantálja a költséghatékony biztonsági felügyeletet
A Calibrate-Then-Delegate (CTD) nevű megközelítés költséghatékonyabbá teszi a nagyméretű nyelvi modellek (LLM) biztonsági ellenőrzését, miközben garantálja a számítási költségeket.

A nagyméretű nyelvi modellek (LLM) biztonságának skálázható felügyelete komoly kihívás, hiszen egyensúlyt kell teremteni a költségek és a pontosság között — írja az ArXiv egy új tanulmánya. A probléma megoldására egy új, Calibrate-Then-Delegate (CTD) nevű modellkaszkád-megközelítést mutattak be, amely valós idejű döntéseket tesz lehetővé, miközben garantálja a számítási költségeket.
A meglévő kaszkádrendszerek a kezdeti, olcsóbb szűrőmodellek bizonytalansága alapján delegálnak feladatokat drágább szakértőknek. Ez azonban nem optimális, mivel a bizonytalanság nem jelzi pontosan, hogy a szakértő valóban kijavítaná-e a hibát.
A számítási költségek labirintusa
A CTD egy új „delegálási érték” (DV) szondát alkalmaz, amely közvetlenül előrejelzi az eszkaláció előnyeit, ugyanazokon a belső reprezentációkon működve, mint a biztonsági szonda.
A költségvetési korlátok betartásához a CTD egy küszöbértéket kalibrál a DV jelzésen, amelyet visszatartott adatok felhasználásával, többszörös hipotézisvizsgálattal állít be.
A biztonsági ellenőrzés új horizontja
Ez véges mintavételi garanciákat biztosít a delegálási arányra, optimalizálva a drága szakértői beavatkozások számát, az ArXiv tanulmánya 2024. március 15-én jelent meg.