ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 05:30

Kutatók: látens spektrum irányítja

Egy új tanulmány szerint a valós adatok skálázási törvényeit egy látens prediktív hozzájárulási spektrum progresszív lefedése határozza meg, nem csupán a token-gyakoriság. A kutatók ezt szövegkorpuszok elemzésével bizonyították.

Kutatók: látens spektrum irányítja
Fotó: Fotó: Michael D Beckwith / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

A valós adatok skálázási törvényeit nem csupán a token-gyakoriság farokrésze, hanem egy látens prediktív hozzájárulási spektrum progresszív lefedése határozza meg — írja az arXiv-on megjelent tanulmány.

A kutatók szövegkorpuszok szuffix-automata reprezentációjával dolgoztak, és egy adat-specifikus globális-KL prediktív hozzájárulási spektrumot definiáltak. Ebben minden állapot az empirikus tömegének és a globális következő token alapvonalától való KL-eltérésének szorzata szerint járul hozzá.

Tizenkét valós korpuszon keresztül a spektrum farokrészének meredeksége már most is erősen korrelál egy rögzített, kis GPT-tanuló empirikus adat-skálázási exponensével. A kutatók a meredekségi korreláción túlmenően minden N edzésmérethez definiáltak egy effektív csonkolási rangot, K(N)-t, az észlelt többletveszteség és az előkészített 1000k globális-KL spektrum maradék faroktömegének illesztésével.

Empirikusan a log K közel lineárisan arányos a log N-nel, a nyers spektrumra vonatkozóan az összevont R^2 körülbelül 0,96, a simított spektrumra pedig 0,90. Ez a megközelítés mélyebb betekintést nyújthat a nagyméretű nyelvi modellek (LLM) teljesítményének optimalizálásába, különösen az adatbetanítás hatékonyságának növelésében.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom