Kutatás2026. jún. 2.frissítve: 02:10

Calibrated Preference Learning: The Case of Label Ranking

A Stanford és a Google kutatói szerint a legtöbb LLM rosszul van kalibrálva rangsorolásnál. Ez befolyásolhatja a megbízhatóságukat.

Fotó: SumUp / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. június 2.

Megosztás

Új keretrendszert dolgozott ki a Stanford és a Google kutatócsoportja a mesterséges intelligencia (AI) megbízhatóságának mérésére, különös tekintettel a rangsorolási feladatokra. A Calibrated Preference Learning (CPL) módszertan a modell által jósolt valószínűségek és a valós kimeneti gyakoriságok közötti összhangot vizsgálja, ami elengedhetetlen a megbízható döntéshozatalhoz — írja az arXiv.

A kutatók szerint a korábbi megközelítések, amelyek a rangsorokat egyszerű osztályokként kezelték, figyelmen kívül hagyták a rangsorok szerkezetét, és nem tudták megragadni az olyan lényeges szempontokat, mint a páronkénti és a top-k előrejelzések. Az új keretrendszer formalizálja a kalibrációt a teljes rangsorokra, részrangsorokra és top-k rangsorokra, és bebizonyítja, hogy a teljes rangsor kalibrációja magában foglalja a többit, de fordítva ez nem igaz.

Kapcsolódó: Személyre szabott LLM-ek

Empirikus vizsgálataik során a kutatók megállapították, hogy a népszerű rangsorolási modellek gyakran rosszul kalibráltak, jelentős eltérésekkel a részrangsor és a top-k metrikák között. Ez a hiányosság befolyásolhatja a robotok tanulási folyamatait és a döntéshozatali megbízhatóságot.

Kapcsolódó: StoSignSGD algoritmus

A kutatás RLHF (Reinforcement Learning from Human Feedback) jutalommodellekre is kiterjedt. Eredményeik szerint a kalibráció erősen, bár nem tökéletesen korrelál a teljesítményteszt pontosságával. Ez arra utal, hogy a kalibráció a top-1 pontosságon túli, értelmezhető minőségi dimenziót is megragad.

Kapcsolódó: AI-asszisztencia fejlesztése

A felfedezések ösztönzik a jövőbeli kutatásokat a hibás kalibráció következményeinek megértésére és a korrekciós módszerek fejlesztésére. A kutatók a keretrendszerüket az alfaro_learning_2021 implementációjára alapozták, és azt adaptálták a címkézett rangsorolási beállításokhoz.

Kapcsolódó: GroupDPO módszer

tetszett a cikk? oszd meg →

Megosztás