LLM-kritikák 35%-kal javíthatják a tudományos cikkek pontszámát
A mesterséges intelligencia által generált kritikák 35%-kal javíthatják a tudományos cikkek átlagpontszámát, ám a LLM-ek és emberi értékelők véleménye nem mindig esik egybe.

A mesterséges intelligencia (LLM) által generált tudományos cikk-kritikák egyre népszerűbbek, és már nagy konferenciák is kísérleteznek velük. Feltételezhető, hogy nemcsak a bírálók, hanem a szerzők is LLM-eket használnak a cikkek véglegesítése során. A 2025-ös ACL Rolling Review (ARR) anyagait elemezve a kutatók empirikus kísérleteket végeztek a LLM-kritikák emberi értékelésekkel való egyezésének felmérésére — írja az arXiv.
A vizsgálat kimutatta, hogy a LLM-kritikák és az emberi vélemények egyezése korlátozott. A legjobb esetben is csak ésszerű az összhang, de a LLM-emberi egyezés jelentősen ingadozik a használt promptoktól és modellektől függően.
Kapcsolódó: LLM-ek megbízhatósága
A kritikák hatása a cikkek fejlődésére
A kutatók azt is vizsgálták, hogyan javíthatja egy szerző a benyújtott cikkét a LLM-kritikák alapján, iteratív szerkesztési folyamattal. Kiderült, hogy a LLM-kritikák ilyen módon történő „kijátszása” bizonyos esetekben hatékony lehet.
Kapcsolódó: LLM kódellenőrzés
A LLM-kritikák által elérhető pontszámnövekedés
Ez a megközelítés statisztikailag szignifikánsan növelheti az érintett cikkek általános pontszámát, akár 35%-uk esetében. A kutatók közzétették a kísérleteikhez használt kódot a 2025-ös ACL Rolling Review keretében.
Kapcsolódó: Személyre szabott LLM