Könnyebb RAG-alternatívát fejlesztettek: a LLM-ek „Lost-in-the-Middle” hibáját használja ki
A nagyméretű nyelvi modellek (LLM) hajlamosak figyelmen kívül hagyni a hosszú szövegek közepén lévő információkat, ami korlátozza a tudásalapú alkalmazásokat.

Új, könnyűsúlyú keretrendszert mutatott be az arXiv:2604.19777v1 számú előnyomtatott tanulmány, amely a nagyméretű nyelvi modellek (LLM) úgynevezett „Lost-in-the-Middle” hatását használná ki a tudáskeresés javítására — írja a kutatás.
A jelenség lényege, hogy a LLM-ek kevesebb figyelmet fordítanak a kontextusablak közepén elhelyezkedő információkra, mint a szöveg elején vagy végén található tartalomra. Ez a torzítás komoly akadályt jelent, amikor nagy, strukturált tudásbázisokat próbálnak közvetlenül a LLM kontextusába ágyazni.
Jelenleg a Retrieval-Augmented Generation (RAG) módszer próbálja orvosolni a skálázhatósági problémákat, releváns szövegtöredékek lekérdezésével. Azonban a RAG jelentős infrastruktúra-igénnyel jár, és kevésbé alkalmas olyan könyvtárakhoz, ahol az adatok szemantikai határait emberek, nem pedig statisztikai algoritmusok definiálták.
A kutatók a Self-Describing Structured Retrieval (SDSR) nevű keretrendszert javasolják, amely a strukturált adatfájlokba ember által írt navigációs metaadatokat ágyaz a fájl elsődleges pozíciójába. Ezzel a LLM-ek elsődlegességi torzítását kihasználják, ahelyett, hogy harcolnának ellene. A SDSR egy Dual-Layer guidance mechanizmust is bevezet, amely a precíziós lekérdezést segíti.