Calibrated Preference Learning: The Case of Label Ranking
A Stanford és a Google kutatói szerint a legtöbb LLM rosszul van kalibrálva rangsorolásnál. Ez befolyásolhatja a megbízhatóságukat.

Új keretrendszert dolgozott ki a Stanford és a Google kutatócsoportja a mesterséges intelligencia (AI) megbízhatóságának mérésére, különös tekintettel a rangsorolási feladatokra. A Calibrated Preference Learning (CPL) módszertan a modell által jósolt valószínűségek és a valós kimeneti gyakoriságok közötti összhangot vizsgálja, ami elengedhetetlen a megbízható döntéshozatalhoz — írja az arXiv.
A kutatók szerint a korábbi megközelítések, amelyek a rangsorokat egyszerű osztályokként kezelték, figyelmen kívül hagyták a rangsorok szerkezetét, és nem tudták megragadni az olyan lényeges szempontokat, mint a páronkénti és a top-k előrejelzések. Az új keretrendszer formalizálja a kalibrációt a teljes rangsorokra, részrangsorokra és top-k rangsorokra, és bebizonyítja, hogy a teljes rangsor kalibrációja magában foglalja a többit, de fordítva ez nem igaz.
Kapcsolódó: Személyre szabott LLM-ek
Empirikus vizsgálataik során a kutatók megállapították, hogy a népszerű rangsorolási modellek gyakran rosszul kalibráltak, jelentős eltérésekkel a részrangsor és a top-k metrikák között. Ez a hiányosság befolyásolhatja a robotok tanulási folyamatait és a döntéshozatali megbízhatóságot.
Kapcsolódó: StoSignSGD algoritmus
A kutatás RLHF (Reinforcement Learning from Human Feedback) jutalommodellekre is kiterjedt. Eredményeik szerint a kalibráció erősen, bár nem tökéletesen korrelál a teljesítményteszt pontosságával. Ez arra utal, hogy a kalibráció a top-1 pontosságon túli, értelmezhető minőségi dimenziót is megragad.
Kapcsolódó: AI-asszisztencia fejlesztése
A felfedezések ösztönzik a jövőbeli kutatásokat a hibás kalibráció következményeinek megértésére és a korrekciós módszerek fejlesztésére. A kutatók a keretrendszerüket az alfaro_learning_2021 implementációjára alapozták, és azt adaptálták a címkézett rangsorolási beállításokhoz.
Kapcsolódó: GroupDPO módszer