Kutatás2026. máj. 2.frissítve: 04:50

17-23 százalékponttal pontosabbak a LLM-ek szemantikai réteggel

Az analitikai adatbázisok lekérdezésekor a LLM-ek gyakran hibáznak és hallucinálnak, mert hiányzik számukra az üzleti szemantika, de egy kiegészítő dokumentummal ez a probléma orvosolható.

Fotó: Fotó: Albert Stoynov / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 2.

Megosztás

Jelentősen, 17-23 százalékponttal növeli a vezető LLM-ek pontosságát az adatelemzésben egy új kutatás, amely a modellek üzleti szemantikai kontextussal való ellátását vizsgálta. A tanulmány szerint a nagyméretű nyelvi modellek (LLM) gyakran téves válaszokat adnak és magabiztosan hallucinálnak, amikor természetes nyelven kérdeznek le analitikai adatbázisokat — írja a arXiv előnyomtatott formában megjelent tanulmánya.

A hibák fő oka, hogy a modellek kénytelenek kikövetkeztetni az üzleti szemantikát, amelyet az adatbázis sémája nem kódol. A kutatók azt vizsgálták, hogy a hiányzó szemantika kontextusként való biztosítása megszüntetheti-e ezt a hiányosságot.

A szemantikai réteg hozzáadása

A teljesítményteszt során három élvonalbeli LLM-et (Claude Opus 4.7, Claude Sonnet 4.6, GPT-5.4) teszteltek 100 természetes nyelvi kérdéssel a Cleaned Contoso Retail adathalmaz felett, ClickHouse környezetben. Minden modellt kétszer értékelték: egyszer csak az adattárház sémájával, egyszer pedig a sémával és egy 4 KB-os, kézzel írt markdown dokumentummal, amely leírta az adatkészlet mértékeit, konvencióit és egyértelműsítési szabályait.

A pontosság növekedése

A dokumentum hozzáadása 17-23 százalékponttal javította a pontosságot mindhárom modellnél. A modell, amely a legnagyobb pontosságú eredményt érte el, a GPT-5.4 volt, 68,7%-os pontossággal, a ClickHouse környezetben, a Cleaned Contoso Retail adathalmaz felett, 2024. április 10-én.

tetszett a cikk? oszd meg →

Megosztás