ArXiv: Új Learn-by-Wire Guard technológia javítja a nyelvmodellek stabilitását
A rendszer a modern nyelvi modellek (LLM) betanítási instabilitását célozza, amely agresszív tanulási ráták és skálázás mellett gyakran jelentkezik.

Új módszert dolgoztak ki a nagyméretű nyelvi modellek (LLM) betanításának stabilizálására, amely jelentősen, 18,7%-kal csökkenti a Qwen2.5 modell perplexitását — írja az arXiv-on megjelent tanulmány. A Learn-by-Wire Guard (LBW-Guard) nevű megoldás egy autonóm vezérlőréteg, amely az AdamW optimalizáló felett működik.
A LBW-Guard nem írja felül az optimalizáló frissítési szabályait, hanem figyeli a betanítási telemetriát, értelmezi az instabilitásra érzékeny rezsimeket, és korlátozott vezérlést alkalmaz az optimalizáló végrehajtására, miközben megőrzi a rögzített betanítási célokat. Ez a megközelítés különösen hasznos a modern LLM-eknél, amelyek egyre inkább ki vannak téve az instabilitásnak, a hibás futtatásoknak és a felesleges számítási kapacitás pazarlásának, főleg agresszív tanulási ráták, skálázás és futásidejű stressz körülmények között.
A kutatók a Qwen2.5-7B modellt használták empirikus alapként a WikiText-103 adathalmazon végzett stressz- és robusztussági tesztekhez. A LBW-Guard a 7B referencia beállításban 13.21-ről 10.74-re csökkentette a végső perplexitást, ami 18,7%-os javulást jelent. Emellett a Qwen2.5-3B és Qwen2.5-14B modellekkel is végeztek méretösszehasonlításokat, tanulási ráta stresszteszteket és gradiens-klippelési alapvonal-méréseket. A TinyLlama-1B modellen is futtattak egy teljes paraméteres ellenőrzést, LoRA nélkül.