Tíz alacsony erőforrású nyelven is hatékonyabb a sok példás ICL
A kutatók húsz, korábban kevésbé támogatott nyelven tesztelték a módszert, amely a nyelvi modellek fordítási képességét javítja.

A kutatók tíz, úgynevezett alacsony erőforrású nyelv esetében vizsgálták, hogyan javítható a nagyméretű nyelvi modellek (LLM) fordítási teljesítménye. Az angolról ezekre a nyelvekre történő fordításokat tesztelték az úgynevezett sok példás in-context learning (ICL) módszerrel — írja az ArXiv NLP.
Az ICL lényege, hogy a modellek új feladatokhoz való adaptálását néhány példán keresztül oldják meg. Ez különösen ígéretes a korábban alulreprezentált nyelvek esetében, amelyeket nem használtak kellő mennyiségben a modellek betanítása során.
Az ICL módszerrel elérhető eredmények azt mutatják, hogy a sok példás megközelítés hatékonyan javítja a fordítási teljesítményt, különösen akkor, ha a modellhez elegendő számú példa áll rendelkezésre.
A nyelvi modellek hatékonyságának új távlatokat nyitó megközelítése
Az eredmények szerint a sok példás ICL annál hatékonyabbá válik, minél több példát kap a modell. A kutatók különösen kiemelik, hogy a BM25-alapú visszakeresés jelentősen javítja az adathatékonyságot, már 50 visszakeresett példa is robusztusabbá teszi a rendszert.
A FLORES+ adatbázis bővülése és a gépi fordítás jövője
A vizsgált tíz alacsony erőforrású nyelv a FLORES+ adatbázishoz került hozzáadásra. A kutatás rávilágít, hogy a gondos példaválasztás és az inferencia-költségek optimalizálása kulcsfontosságú, különösen a kisebb nyelvi közösségek számára. A FLORES+ adatbázis 2024. március 15-én frissül.