Maori szövegfelolvasó modellt fejlesztettek Új-Zélandon — a közösségé a tulajdonjog
A Waikato Egyetem új modellje a maori nyelv egyedi dialektusaira fókuszál, és a közösségi tulajdonjogot hangsúlyozza, szemben a nagy technológiai cégek adatgyűjtési gyakorlatával.

Maori szövegfelolvasó modellt fejlesztettek a Waikato Egyetem kutatói, amely szándékosan kerüli a Big Tech cégek adatkezelési gyakorlatát. A modell célja, hogy a maori nyelvi közösségek kezében tartsa a digitális nyelvi rendszerek feletti ellenőrzést — írja az AI News.
A Big Tech cégek engedély nélkül gyűjtik a maori nyelvi adatokat, azokat Új-Zélandon kívül dolgozzák fel, és a kimenet tulajdonjogát is megtartják — állítja Te Taka Keegan, a Waikato Egyetem docense és AI Intézetének társigazgatója.
A nyelv szelleme
A maori nyelv specifikus nyelvi jellemzői, mint például a magánhangzók hosszának fontossága és a digráfok (két betű egy hangot jelöl) eltérő kiejtése, különleges kihívásokat jelentenek az AI hangmodellek számára. A „keke” (sütemény), „kēkē” (hónalj) és „kekē” (nyikorog) szavak például csak a magánhangzók hosszában térnek el.
A kutatók ezért Ngaringi Katipa fordítót és nyelvtanárt kérték fel, hogy az ő hangjával rögzítsék a betanításhoz szükséges adatokat. Kezdetben 4,5 órányi felvételt gyűjtöttek könyvekből, majd ezt bővítették egy átfogó mondat- és szólistával, amely ritka szavakat is tartalmazott.
A közösség hangja
A végső adathalmaz 7 óra 45 percnyi tiszta felvételt tett ki. A modell fejlesztése során a fonéma alapú megközelítés bizonyult hatékonyabbnak, amely előre megadja a modellnek a hangzási szabályokat.
A Google némi támogatást nyújtott a Waikato csapatnak, de Keegan szerint ez feltételek és tulajdonjogi igények nélkül történt. A modell tulajdonjogát illetően Keegan jelenleg Ngaringi Katipa három iwi-jével (törzsével) tárgyal – Waikato, Maniapoto és Raukawa. A modell 2024. márciusában kerül a közösséghez.