Melyik modell nyer: az emberek preferenciája előrejelezhető
A Chip Huyen által végzett kísérletben a GPT-4 85,1%-os győzelmi arányt ért el a nem döntetlen meccsekben, de voltak olyan promtок, ahol más modellek felülmúlták.

Az emberi preferencia előrejelzése egy olyan terület, amely a modellfejlesztésben játszik fontos szerepet. A humán preferencia irányítja a poszt-tréning technikákat, beleértve a RLHF és DPO módszereket is. Az emberi preferencia szintén használható az AI modellek rangsorolására, mint például a LMSYS Chatbot Arena esetében.
A Chatbot Arena célja, hogy meghatározza, melyik modell a legjobb általánosságban. A modell rangsorolásnak két lépése van: az első a felhasználói preferenciákról szóló összehasonlító adatok gyűjtése, a második a modell rangsorolás számítása ezekből az összehasonlításokból. Minden kéréshez két vagy több modellt választanak ki, és egy értékelő, akár ember, akár AI, kiválasztja a nyertes modellt.
A hiányzó láncszem
Az emberi preferencia előrejelzése másik fontos területe a modell útvonalak kiválasztása. Ha előre tudjuk, hogy melyik modell a legjobb egy adott prompt esetében, és ez a modell olcsóbb vagy gyorsabb, akkor ezt az utasítást ehez a modellhez irányíthatjuk. A modell útvonalak kiválasztása javíthatja a válasz minőségét, miközben csökkenti a költségeket és a késleltetést.
Ahol a számok beszélnek
A Chip Huyen által végzett kísérletben a GPT-4 modell 85,1%-os győzelmi arányt ért el a nem döntetlen meccsekben, de voltak olyan promtок, ahol más modellek felülmúlták. A kísérlet azt mutatja, hogy az emberi preferencia előrejelzése fontos terület a modellfejlesztésben, és hogy a modell útvonalak kiválasztása javíthatja a válasz minőségét.
Az emberi preferencia előrejelzése március végén kerül nyilvánosságra az LMSYS Chatbot Arena platformon, ahol a GPT-4 modell 85,1%-os győzelmi arányt ért el.