Az LLM-ek 6,5%-ban hallucinálnak, 13,2%-ban mulasztanak a válaszokban
Öt vezető LLM tesztje szerint a modellek válaszainak 6,5%-ában hallucináció, 13,2%-ában mulasztás vagy kitérő válasz szerepelt – az UTCO-keretrendszerrel 2075 strukturált utasítást vizsgálva.

A kutatók az LLM-ek teljesítményét értékelve azt találták, hogy a válaszok 6,5%-ában hallucináltak, míg 13,2%-ában mulasztást tapasztaltak. Ehhez a vizsgálathoz a kutatók 2075, az úgynevezett UTCO-keretrendszerrel generált utasítást használtak az LLM-ek teszteléséhez.
Az UTCO-keretrendszer egy olyan prompt konstrukciós keretrendszer, amely egy lekérdezést négy kontrollálható elemre bontja: felhasználó, téma, kontextus és hangnem. Ezzel a keretrendszerrel a kutatók szisztematikusan tesztelhették az LLM-eket, és megállapíthatták, hogy a hallucinálás és a mulasztás milyen gyakran fordul elő a válaszokban.
Az eredmények azt mutatták, hogy a hallucinálások főként a krízishelyzetekre és az öngyilkos gondolatokra vonatkozó lekérdezésekben fordultak elő. A mulasztások pedig szintén ezekben a helyzetekben voltak gyakoribbak, ami aggodalmat kelt a biztonságkritikus iránymutatások nyújtásának szempontjából.
A kutatók szerint a hallucinálás és a mulasztás probléma jelentős kihívást jelent az LLM-ek gyakorlati alkalmazásában, különösen a magas kockázatú helyzetekben, mint például az orvosi diagnosztika vagy a chip tervezés. A kutatás eredményei fontos információkkal szolgálnak az LLM-ek fejlesztéséhez és a hallucinálás és a mulasztás csökkentéséhez.
Most az a kérdés, hogy miként lehet az LLM-eket továbbfejleszteni, hogy csökkentsék a hallucinálás és a mulasztás gyakoriságát, és biztonságosabban használják őket a magas kockázatú helyzetekben. Az az OpenAI szerint, a kutatóknak további vizsgálatokat kell végezniük, hogy jobban megértsék a hallucinálás és a mulasztás okait, és hatékonyabb megoldásokat találjanak a probléma kezelésére.