Kategóriaelmélet segíti a nyelvi modelleket: 2,92 PPL-csökkenés a WikiText-103-on
A Stanford és a Google Robotics új, 306 milliós paraméterű Cognitive Categorical Transformer (CCT) modellje 12%-kal jobb eredményt ér el a WikiText-103 nyelvi teljesítményteszten, mint a GPT-2 Small.

A Stanford és a Google Robotics kutatói bemutatták a Cognitive Categorical Transformert (CCT), egy 306 milliós paraméterű AI-modellt, amely kategóriaelméleti és kognitív tudományi inspirációkat épít be. A WikiText-103 teljesítményteszten végzett tesztek során a CCT 21,27-es perplexitást ért el, míg az azonos finomhangolási protokollal futtatott GPT-2 Small 24,19-es értéket produkált. Ez 2,92 PPL-es, azaz 12%-os relatív csökkenést jelent a hagyományos finomhangoláshoz képest — írják a kutatók az arXiv-on.
A fejlesztők részletes ablációs vizsgálatokat is végeztek. Egy olyan kísérletben, ahol a GT-Full szimplicális üzenetküldést teljesen kikapcsolták a hétfázisú aktiválási folyamat során, a modell 23,72 PPL-t ért el. Ez azt jelenti, hogy az architektúra által elért javulás 84%-a, pontosan 2,45 PPL-csökkenés a GT-Full szimplicális üzenetküldésnek köszönhető. Ez az első olyan validált bizonyíték, amely szerint a szimplicális üzenetküldés javítja a nyelvi modellek teljesítményét a 306 milliós paraméteres skálán a WikiText-103 adathalmazon.
Kapcsolódó: LLM-ek fejlesztése
A kutatás három negatív eredményt is bemutat a konzisztencia-stílusú kategorikus előfeltevésekkel kapcsolatban: a sheaf smoothing, az adjunction round-trip és a curvature regularization nem hozott javulást. Ezzel szemben a GT-Full és a PrecisionWeightedPP együttes strukturális előfeltevése egy empirikus mintázatot támaszt alá, amelyet a kutatók a struktúra/konzisztencia megkülönböztetésnek neveznek. Ez alapján a kategóriaelméleti előfeltevések, amelyek új topológiát adnak hozzá, javítják a nyelvi modellezést, míg azok, amelyek csak egy konzisztencia-azonosságot érvényesítenek, nem.
Kapcsolódó: Vizuális megértés fejlődése
A GPT-2 Large modell 22,05-ös nulla-lövetes PPL-t ért el a WikiText-103-on, ami 6,2-szer több paramétert igényelt, mint a GPT-2 Small. A CCT a 306 milliós paraméteres skálán mutatott eredményei alapján kiemelkedő hatékonyságot demonstrál a kategóriaelméleti módszerek integrálásával.
Kapcsolódó: Oktatási AI-rendszer