Új teszt: az LLM-ek következetesen félreolvassák a feladatot, ha az instrukció és a szöveg ellentmond egymásnak
Hat modellt teszteltek, és mindegyiknél ugyanazt találták: a felületi jelek 8–38-szor erősebben befolyásolják a döntést, mint maga a feladat célja.

A kutatók szerint a nagy nyelvi modellek 75%-nál rosszabb teljesítményt mutatnak a Heuristic Override teljesítményteszt teszten, amikor a felületi jelzés ellentmond az implicit korlátozásnak. A vizsgálatban hat modellt elemeztek, és megállapították, hogy a felületi jelzések 8,7-38-szor nagyobb befolyást gyakorolnak a modell döntésére, mint a cél.
Az eredmények azt mutatják, hogy a nagy nyelvi modellek sistematikusan csődöt mondanak, amikor a felületi jelzés konfliktusba kerül az implicit korlátozásokkal. A Heuristic Override teljesítményteszt (HOB) 500 példányt tartalmaz, amelyek 4 heurisztikai és 5 korlátozási családot fednek le, és a modell teljesítményét méri. A vizsgálatban részt vevő 14 modell közül egyik sem érte el a 75%-os teljesítményt, és a korlátozások jelenléte volt a legnehezebb az modellek számára (44%).
A kutatók szerint a probléma nem a hiányzó tudásban, hanem a korlátozások inference-jében rejlik. A vizsgálatban megállapították, hogy a modell teljesítménye javul, ha a kulcsfontosságú objektumot hangsúlyozzák, és a cél-dekompozíciós prompting segít a modellnek, hogy a prekondíciókat felsorolja, mielőtt válaszolna.
Az eredmények azt mutatják, hogy a nagy nyelvi modelleknek szükségük van a korlátozások jobb kezelésére, és a Heuristic Override teljesítményteszt egy eszköz lehet a progresszus mérésére ezen a területen. A kutatók remélik, hogy a vizsgálatuk hozzájárul a nagy nyelvi modellek fejlesztéséhez és a korlátozások jobb kezeléséhez.
A következő lépésben a kutatók azt tervezik, hogy továbbfejlesztik a Heuristic Override teljesítménytesztet, és más területeken is alkalmazzák a nagy nyelvi modelleket. Az eredmények alapján a kutatók azt javasolják, hogy a nagy nyelvi modellek fejlesztői figyelembe vegyék a korlátozások jobb kezelését, és a modellek teljesítményét értékeljék a Heuristic Override teljesítményteszt segítségével.