Kutatók: látens spektrum irányítja
Egy új tanulmány szerint a valós adatok skálázási törvényeit egy látens prediktív hozzájárulási spektrum progresszív lefedése határozza meg, nem csupán a token-gyakoriság. A kutatók ezt szövegkorpuszok elemzésével bizonyították.

A valós adatok skálázási törvényeit nem csupán a token-gyakoriság farokrésze, hanem egy látens prediktív hozzájárulási spektrum progresszív lefedése határozza meg — írja az arXiv-on megjelent tanulmány.
A kutatók szövegkorpuszok szuffix-automata reprezentációjával dolgoztak, és egy adat-specifikus globális-KL prediktív hozzájárulási spektrumot definiáltak. Ebben minden állapot az empirikus tömegének és a globális következő token alapvonalától való KL-eltérésének szorzata szerint járul hozzá.
Tizenkét valós korpuszon keresztül a spektrum farokrészének meredeksége már most is erősen korrelál egy rögzített, kis GPT-tanuló empirikus adat-skálázási exponensével. A kutatók a meredekségi korreláción túlmenően minden N edzésmérethez definiáltak egy effektív csonkolási rangot, K(N)-t, az észlelt többletveszteség és az előkészített 1000k globális-KL spektrum maradék faroktömegének illesztésével.
Empirikusan a log K közel lineárisan arányos a log N-nel, a nyers spektrumra vonatkozóan az összevont R^2 körülbelül 0,96, a simított spektrumra pedig 0,90. Ez a megközelítés mélyebb betekintést nyújthat a nagyméretű nyelvi modellek (LLM) teljesítményének optimalizálásába, különösen az adatbetanítás hatékonyságának növelésében.