A Llama-3.1-8B a Mistralt és a Qwen3-at is veri nepáli nyelven
A Llama-3.1-8B modell jobban alkalmazkodik a romanizált nepáli nyelvhez, mint a Mistral-7B-v0.1 és a Qwen3-8B, különösen finomhangolás után.

A Llama-3.1-8B modell bizonyult a leghatékonyabbnak a romanizált nepáli nyelv feldolgozásában, felülmúlva két hasonló méretű versenytársát, a Mistral-7B-v0.1-et és a Qwen3-8B-t — írja az ArXiv NLP kutatása.
A kutatók szisztematikusan vizsgálták a nyelvi adaptációt a három nyílt forráskódú modellnél, amelyek mindössze 8 milliárd paraméter körüliek. A romanizált nepáli, vagyis a latin ábécével írt nepáli nyelv domináns az informális digitális kommunikációban Nepálban, mégis kritikus mértékben alulreprezentált a nagy nyelvi modellek (LLM-ek) körében.
A modelleket nulla-shot és finomhangolt beállításokban is értékelték egy 10 000 átírt, utasításkövető mintát tartalmazó kétnyelvű adathalmaz segítségével. A teljesítményt öt metrika mentén, hét mérési dimenzióban számszerűsítették, beleértve a Perplexity (PPL), BERTScore, chrF++, ROUGE-1, ROUGE-2, ROUGE-L és BLEU értékeket, amelyek a folyékonyságot, a fonetikai konzisztenciát és a szemantikai integritást mérték.
A finomhangolást Quantized Low-Rank Adaptation (QLoRA) és Rank-Stabilized LoRA (rsLoRA) módszerrel végezték r=32 rangon, két NVIDIA Tesla T4 GPU-n. A Llama-3.1-8B modell a finomhangolás után mutatta a legjobb eredményeket a vizsgált metrikákban.