Frissítve: 9 perce·Ma: 57
Kutatás
AI által generált szöveg

Az LLM-ek 6,5%-ban hallucinálnak, 13,2%-ban mulasztanak a válaszokban

Öt vezető LLM tesztje szerint a modellek válaszainak 6,5%-ában hallucináció, 13,2%-ában mulasztás vagy kitérő válasz szerepelt – az UTCO-keretrendszerrel 2075 strukturált utasítást vizsgálva.

Az LLM-ek 6,5%-ban hallucinálnak, 13,2%-ban mulasztanak a válaszokban
Fotó: Logan Gutierrez / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A kutatók az LLM-ek teljesítményét értékelve azt találták, hogy a válaszok 6,5%-ában hallucináltak, míg 13,2%-ában mulasztást tapasztaltak. Ehhez a vizsgálathoz a kutatók 2075, az úgynevezett UTCO-keretrendszerrel generált utasítást használtak az LLM-ek teszteléséhez.

Az UTCO-keretrendszer egy olyan prompt konstrukciós keretrendszer, amely egy lekérdezést négy kontrollálható elemre bontja: felhasználó, téma, kontextus és hangnem. Ezzel a keretrendszerrel a kutatók szisztematikusan tesztelhették az LLM-eket, és megállapíthatták, hogy a hallucinálás és a mulasztás milyen gyakran fordul elő a válaszokban.

Az eredmények azt mutatták, hogy a hallucinálások főként a krízishelyzetekre és az öngyilkos gondolatokra vonatkozó lekérdezésekben fordultak elő. A mulasztások pedig szintén ezekben a helyzetekben voltak gyakoribbak, ami aggodalmat kelt a biztonságkritikus iránymutatások nyújtásának szempontjából.

A kutatók szerint a hallucinálás és a mulasztás probléma jelentős kihívást jelent az LLM-ek gyakorlati alkalmazásában, különösen a magas kockázatú helyzetekben, mint például az orvosi diagnosztika vagy a chip tervezés. A kutatás eredményei fontos információkkal szolgálnak az LLM-ek fejlesztéséhez és a hallucinálás és a mulasztás csökkentéséhez.

Most az a kérdés, hogy miként lehet az LLM-eket továbbfejleszteni, hogy csökkentsék a hallucinálás és a mulasztás gyakoriságát, és biztonságosabban használják őket a magas kockázatú helyzetekben. Az az OpenAI szerint, a kutatóknak további vizsgálatokat kell végezniük, hogy jobban megértsék a hallucinálás és a mulasztás okait, és hatékonyabb megoldásokat találjanak a probléma kezelésére.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom