Frissítve: 16 perce·Ma: 57
Kutatás
AI által generált szöveg

A Llama-3.1-8B a Mistralt és a Qwen3-at is veri nepáli nyelven

A Llama-3.1-8B modell jobban alkalmazkodik a romanizált nepáli nyelvhez, mint a Mistral-7B-v0.1 és a Qwen3-8B, különösen finomhangolás után.

A Llama-3.1-8B a Mistralt és a Qwen3-at is veri nepáli nyelven
Fotó: Logan Gutierrez / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A Llama-3.1-8B modell bizonyult a leghatékonyabbnak a romanizált nepáli nyelv feldolgozásában, felülmúlva két hasonló méretű versenytársát, a Mistral-7B-v0.1-et és a Qwen3-8B-t — írja az ArXiv NLP kutatása.

A kutatók szisztematikusan vizsgálták a nyelvi adaptációt a három nyílt forráskódú modellnél, amelyek mindössze 8 milliárd paraméter körüliek. A romanizált nepáli, vagyis a latin ábécével írt nepáli nyelv domináns az informális digitális kommunikációban Nepálban, mégis kritikus mértékben alulreprezentált a nagy nyelvi modellek (LLM-ek) körében.

A modelleket nulla-shot és finomhangolt beállításokban is értékelték egy 10 000 átírt, utasításkövető mintát tartalmazó kétnyelvű adathalmaz segítségével. A teljesítményt öt metrika mentén, hét mérési dimenzióban számszerűsítették, beleértve a Perplexity (PPL), BERTScore, chrF++, ROUGE-1, ROUGE-2, ROUGE-L és BLEU értékeket, amelyek a folyékonyságot, a fonetikai konzisztenciát és a szemantikai integritást mérték.

A finomhangolást Quantized Low-Rank Adaptation (QLoRA) és Rank-Stabilized LoRA (rsLoRA) módszerrel végezték r=32 rangon, két NVIDIA Tesla T4 GPU-n. A Llama-3.1-8B modell a finomhangolás után mutatta a legjobb eredményeket a vizsgált metrikákban.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom