Kis nyelvi modellek: 13 százalékponttal javult a Bash-parancsok generálása
A kis nyelvi modellek Bash parancsok generálásának megbízhatósága átlagosan 13 százalékponttal javult. A sikerességi arány 62,5%-ról 75,2%-ra nőtt.

A NVIDIA AI Red Team egy új kísérleti eljárást mutatott be, amely Bash parancsgrammatikák generálásával és alkalmazásával javítja a kis nyelvi modellek (LLM) képességét a parancssori feladatok sikeres végrehajtására — írja a NVIDIA Developer blogja.
A kutatók 13 különböző kis nyelvi modellt teszteltek 299 feladaton, és az átlagos sikerességi arány 62,5%-ról 75,2%-ra nőtt. A legkiemelkedőbb eredményt a Qwen3-0.6B modellnél érték el, ahol a sikerességi ráta 16,7%-ról 59,2%-ra emelkedett.
Miért fontos a Bash?
Az ügynöki rendszerek egyre gyakrabban használnak nyelvi modelleket kódok és parancsok generálására, amelyeket aztán eszközök, shell-ek vagy CI-rendszerek hajtanak végre. A biztonsági kihívás nem csupán az, hogy a modell „érti-e” a feladatot, hanem az is, hogy képes-e szintaktikailag érvényes, a környezethez igazodó és biztonságos formában lévő műveletet generálni. A Bash ebben a kontextusban egy kompakt példa: a szintaktikai hibák megbocsáthatatlanok, és a kockázat a feladat komplexitásával együtt nő. A kis modellek gyakran ismerik a meghívandó bináris fájlt, de hibáznak a pontos szintaxisban, az argumentumok sorrendjében vagy az idézőjelek használatában.
A Grammar-Constrained Decoding egy olyan technika, amely módosítja az autoregresszív nyelvi modell generálásának mintavételi folyamatát. Minden generálási lépésben a modell a szokásos módon logitokat produkál, de mielőtt egy tokent kiválasztana, egy grammatikát alkalmaznak a disztribúció megváltoztatására, gyakran bizonyos tokenek blokkolásával. A PICARD például ezt a módszert használta a SQL generálás javítására; az AI Red Team most ugyanezt az elvet alkalmazta a Bash-re.
A grammargen nevű eszköz a --help dokumentációból vagy JSON eszközsémákból generál grammatikákat, amelyek aztán a llama.cpp inferenciáján keresztül, a llguidance segítségével alkalmazhatók. Az értékelés során a natív modell teljesítményét egy „korlátozott újrapróbálkozás” móddal hasonlították össze, amely grammatika-korlátozott dekódolást használt, majd a kimenetet a tree-sitter-bash segítségével ellenőrizte a végrehajtás előtt. Ha a tree-sitter hibát jelzett, azt kontextusként visszaküldték a natív módba, hogy legalább natív szintű teljesítményt érjenek el. Ez a módszer lehetővé tette a modell teljesítményének javítását, miközben a tesztkörnyezetben csak egy parancsot hajtottak végre.