ÉlőUtoljára: 3 órájaMa: 26
Kutatásfrissítve: 11:10

Visszatérhet a figyelem középpontjába a xLSTM architektúra – a transzformerek alternatívája

A xLSTM architektúra a Long Short-Term Memory (LSTM) hálózatok továbbfejlesztett változata, amely 2015 körül még a szekvenciamodellezés alapköve volt.

Visszatérhet a figyelem középpontjába a xLSTM architektúra – a transzformerek alternatívája
Fotó: Fotó: Albert Stoynov / Unsplash
forrás: TheSequence·AI Forradalom szerk.·
Megosztás

Váratlan alternatívát kínálhat a transzformer-alapú modellekkel szemben a mesterséges intelligencia területén a xLSTM architektúra — írja a TheSequence.

A Long Short-Term Memory (LSTM) hálózatok, amelyeket a 1990-es években Sepp Hochreiter és Jürgen Schmidhuber fejlesztett ki, sokáig a mélytanulás vitathatatlan igáslovai voltak. Ezek a hálózatok fordították a szövegeket, ismerték fel a beszédet, és az első generációs nagy nyelvi modelleket (LLM) is ők hajtották.

A fordulat 2017-ben jött el, amikor megjelent a „Attention Is All You Need” című tanulmány. Ezután az egész AI-ökoszisztéma a transzformer architektúrára váltott, amely a LSTM mély, építészeti eleganciáját a nyers erővel, a rendkívül párhuzamosítható mátrixszorzásokkal cserélte fel. A transzformer azért nyerte meg a „hardverlottót”, mert lehetővé tette a teljes szekvencia GPU-rácsra való leképezését és egyidejű betanítását.

A szekvenciamodellezés új távlatokban

A xLSTM most úgy tűnik, visszahozhatja a korábbi megközelítés előnyeit, és új lehetőségeket nyithat meg a szekvenciamodellezésben. A TheSequence szerint a xLSTM egy olyan architektúra, amely a transzformerekkel szemben egyedi előnyöket kínálhat, különösen a hosszú távú függőségek kezelésében, ami a LSTM-ek eredeti erőssége volt.

A fejlesztési folyamat és a jövő

A xLSTM fejlesztésével a kutatók célja, hogy egy olyan modellt hozzanak létre, amely a transzformerek párhuzamosíthatóságát és hatékonyságát ötvözi a LSTM-ek szekvenciafeldolgozási képességeivel. A részletes technikai leírások május 5-én, a TheSequence Knowledge #854 számában jelentek meg a Google Scholaron.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom