Új módszerrel becsülnék meg a LLM-ek hibaszázalékát
A módszer három különböző adatforrást kombinál, többek között emberi címkézésű kalibrációs adatkészleteket és LLM-alapú értékeléseket.

A nagyméretű nyelvi modellek (LLM-ek) megbízható hibaszázalék-becslése elengedhetetlen a biztonságos bevezetésükhöz, ám a jelenlegi módszerek gyakran drága emberi értékelés és torzított automatikus címkézés között ingadoznak. Egy új, hatékony megközelítést dolgoztak ki az ArXiv NLP kutatói, amely a korlátozott maximum-likelihood becslésen (MLE) alapul.
A kutatók által kifejlesztett módszer egyedi, mivel három különböző adatforrást integrál: egy kis, de kiváló minőségű, emberi címkézésű kalibrációs adatkészletet; egy nagyméretű, LLM-alapú értékelésekből álló korpuszt; és kiegészítő doménspecifikus információkat.
A bizonytalanság hídja
Ezzel a hibrid megközelítéssel a kutatók célja, hogy áthidalják a szakadékot a költséges, de pontos emberi felülvizsgálat és az automatizált, de potenciálisan hibás „LLM-mint-bíró” rendszerek között.
A módszerrel a fejlesztők pontosabban felmérhetik modelljeik kockázatait, mielőtt éles környezetbe telepítenék azokat.
A pontosság kulcsa
A megközelítést átfogó empirikus vizsgálattal validálták, összehasonlítva azt olyan élvonalbeli alapvonalakkal, mint a Prediction-Powered Inference (PPI), és 2024. márciusban tervezik a kutatás eredményeinek publikálását az ArXiv oldalán.