17-23 százalékponttal pontosabbak a LLM-ek szemantikai réteggel
Az analitikai adatbázisok lekérdezésekor a LLM-ek gyakran hibáznak és hallucinálnak, mert hiányzik számukra az üzleti szemantika, de egy kiegészítő dokumentummal ez a probléma orvosolható.

Jelentősen, 17-23 százalékponttal növeli a vezető LLM-ek pontosságát az adatelemzésben egy új kutatás, amely a modellek üzleti szemantikai kontextussal való ellátását vizsgálta. A tanulmány szerint a nagyméretű nyelvi modellek (LLM) gyakran téves válaszokat adnak és magabiztosan hallucinálnak, amikor természetes nyelven kérdeznek le analitikai adatbázisokat — írja a arXiv előnyomtatott formában megjelent tanulmánya.
A hibák fő oka, hogy a modellek kénytelenek kikövetkeztetni az üzleti szemantikát, amelyet az adatbázis sémája nem kódol. A kutatók azt vizsgálták, hogy a hiányzó szemantika kontextusként való biztosítása megszüntetheti-e ezt a hiányosságot.
A szemantikai réteg hozzáadása
A teljesítményteszt során három élvonalbeli LLM-et (Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.4) teszteltek 100 természetes nyelvi kérdéssel a Cleaned Contoso Retail adathalmaz felett, ClickHouse környezetben. Minden modellt kétszer értékelték: egyszer csak az adattárház sémájával, egyszer pedig a sémával és egy 4 KB-os, kézzel írt markdown dokumentummal, amely leírta az adatkészlet mértékeit, konvencióit és egyértelműsítési szabályait.
A pontosság növekedése
A dokumentum hozzáadása 17-23 százalékponttal javította a pontosságot mindhárom modellnél. A modell, amely a legnagyobb pontosságú eredményt érte el, a GPT-5.4 volt, 68,7%-os pontossággal, a ClickHouse környezetben, a Cleaned Contoso Retail adathalmaz felett, 2024. április 10-én.