Nagy nyelvi modellek képtelenek felmérni saját feladatuk időtartamát
A kutatók szerint a nagy nyelvi modellek 4-7-szeresére becsülik túl a feladatok időtartamát, ami komoly gyakorlati következményekkel jár az ügynökszintű tervezésben és ütemezésben.

A kutatók szerint a nagy nyelvi modellek nem képesek felmérni saját feladatuk időtartamát, ami komoly gyakorlati következményekkel jár az ügynökszintű tervezésben és ütemezésben. Az ArXiv NLP egyik tanulmányában azonosították, hogy a nagy nyelvi modellek 4-7-szeresére becsülik túl a feladatok időtartamát.
Az Abstract szerint a pre-task becslések túlbecsülik a valós időtartamot, így a modellek emberi léptékű perceket jósolnak olyan feladatokhoz, amelyek valójában csak másodpercekig tartanak. A relatív sorrend sem jobb: a feladatpárokat úgy tervezték, hogy kitették a heurisztikus függőségnek, a modellek esélyszint alatt teljesítenek (GPT-5: 18% a counterintuitív pároknál, p = 0,033), szisztematikusan megbuknak, amikor az összetettségi címkék félrevezetnek.
A poszt-hoc visszahívás valóságától elválasztott - a becslések egy nagyságrenddel eltérnek a valóságostól mindkét irányban. Ezek a kudarcok fennmaradnak a több lépéses ügynöki beállításokban, ahol a hibák 5-10-szeresek. A modellek rendelkeznek a időtartamról szóló propozicionális tudással a betanításból, de hiányzik a saját következtetési idejükben való tapasztalati alapozás, ami gyakorlati következményekkel jár az ügynök ütemezésére és tervezésére.
A nagy nyelvi modellek időbecslési korlátai fontos gyakorlati következményekkel járnak, különösen az ügynökszintű tervezés és ütemezés területén. A jövőbeni kutatásoknak foglalkozniuk kell ezzel a kérdéssel, és olyan megoldásokat kell találniuk, amelyek lehetővé teszik a nagy nyelvi modellek számára, hogy pontosabban becsüljék a feladatok időtartamát.