57 token előrejelzési ablak mutatja meg a Phi-3-mini viselkedését
A kutatók az új energiaalapú keretrendszerrel a transzformer inferencia dinamikáját vizsgálták, összekötve azt a neurális számítási modellekkel.

A Phi-3-mini-4k-instruct modell 57 tokenos előrejelzési ablakot mutat aritmetikai feladatoknál, mohó dekódolás (greedy decoding) mellett — írja az ArXiv AI kutatása. Ez az ablak egyfajta „elkötelezettségi jelként” értelmezhető, amely a modell viselkedését mutatja, mielőtt végleges kimenetet adna.
A kutatók egy energiaalapú irányítási keretrendszert vezettek be, amely a transzformer inferencia dinamikáját a neurális számítások megszorítási modelljeivel kapcsolja össze. Ezt a módszert hét modellre alkalmazták, öt különböző geometriai rendszerben. A cél a volt, hogy jobban megértsék, hogyan működnek a nagyméretű nyelvi modellek belsőleg, és hogyan lehetne biztonságosabbá tenni őket.
A jelenlegi AI biztonsági megközelítések, mint a viselkedési monitorozás és az utólagos finomhangolás, gyakran nem termelnek kimutatható előzetes elkötelezettségi jelet a legtöbb instrukcióra hangolt modellnél. Ez a most azonosított 57 tokenes ablak rávilágít arra, hogy ilyen jelek létezhetnek, de nem univerzálisak, hiszen modell-, feladat- és konfigurációspecifikusak.
A kutatás során öt különböző inferencia viselkedési típust is azonosítottak: Authority Band, Late Signal, Inverted, Flat és Scaffold-Selective. Ezek a kategóriák segítenek jobban rendszerezni és megérteni a modellek működését, különösen a belső döntéshozatali mechanizmusokat. Az energiaaszimmetria és a pálya feszültségének mérése kulcsfontosságú volt ezen viselkedések feltérképezésében.