Visszatérhet a figyelem középpontjába a xLSTM architektúra – a transzformerek alternatívája
A xLSTM architektúra a Long Short-Term Memory (LSTM) hálózatok továbbfejlesztett változata, amely 2015 körül még a szekvenciamodellezés alapköve volt.

Váratlan alternatívát kínálhat a transzformer-alapú modellekkel szemben a mesterséges intelligencia területén a xLSTM architektúra — írja a TheSequence.
A Long Short-Term Memory (LSTM) hálózatok, amelyeket a 1990-es években Sepp Hochreiter és Jürgen Schmidhuber fejlesztett ki, sokáig a mélytanulás vitathatatlan igáslovai voltak. Ezek a hálózatok fordították a szövegeket, ismerték fel a beszédet, és az első generációs nagy nyelvi modelleket (LLM) is ők hajtották.
A fordulat 2017-ben jött el, amikor megjelent a „Attention Is All You Need” című tanulmány. Ezután az egész AI-ökoszisztéma a transzformer architektúrára váltott, amely a LSTM mély, építészeti eleganciáját a nyers erővel, a rendkívül párhuzamosítható mátrixszorzásokkal cserélte fel. A transzformer azért nyerte meg a „hardverlottót”, mert lehetővé tette a teljes szekvencia GPU-rácsra való leképezését és egyidejű betanítását.
A szekvenciamodellezés új távlatokban
A xLSTM most úgy tűnik, visszahozhatja a korábbi megközelítés előnyeit, és új lehetőségeket nyithat meg a szekvenciamodellezésben. A TheSequence szerint a xLSTM egy olyan architektúra, amely a transzformerekkel szemben egyedi előnyöket kínálhat, különösen a hosszú távú függőségek kezelésében, ami a LSTM-ek eredeti erőssége volt.
A fejlesztési folyamat és a jövő
A xLSTM fejlesztésével a kutatók célja, hogy egy olyan modellt hozzanak létre, amely a transzformerek párhuzamosíthatóságát és hatékonyságát ötvözi a LSTM-ek szekvenciafeldolgozási képességeivel. A részletes technikai leírások május 5-én, a TheSequence Knowledge #854 számában jelentek meg a Google Scholaron.