Egy új benchmark leleplezi a nagy nyelvi modellek fizikai törvényeket sértő hibáit
Több mint 100 nagy nyelvi modellnek sikerült megbuknia a fizikai törvényeket tesztelő benchmarkon, ami arra utal, hogy a jelenlegi modellek még nem képesek pontosan kezelni a fizikai valóságot.

A magyar fejlesztő, aki a Reddit MachineLearning fórumán mutatta be kutatását, egy új benchmarkot hozott létre, amely a nagy nyelvi modellek (LLM) fizikai törvényeket sértő válaszait szűri ki. A tesztben több mint száz, több mint 100 LLM sikeresen hibázott, ami azt jelzi, hogy a jelenlegi modellek még nem képesek pontosan kezelni a fizikai valóságot.
A benchmark célja, hogy a modellek által adott válaszokban rejlő fizikai pontatlanságokat objektíven mérje. A fejlesztő a szimbolikus matematikát, konkrétan a SymPy és a Pint csomagokat használja a válaszok értékelésére, így a modellek által megadott mértékegységek és számítások ellenőrizhetőek.
Az eredmények azt mutatják, hogy a LLM-ek gyakran adnak magabiztosan hibás fizikai válaszokat, még akkor is, ha a kérdés konkrét, mérhető adatokat tartalmaz. A benchmark ezen hibákat a fizikai törvényekkel ellentétes állítások alapján jelöli ki, például ha a modell 1 kg súlyú tárgyra 10 m/s² gyorsulást ír le, miközben a valóságban a gravitációs gyorsulás 9,81 m/s².
A kutatás fontos, mert a nyelvi modellek egyre több területen kerülnek alkalmazásra, ahol a fizikai pontosság kritikus. A benchmark segít a fejlesztőknek és a felhasználóknak egyértelműen látni, hogy mely modellek még nem képesek megbízható fizikai tanácsokat adni, és melyekben kell további finomhangolás.
Jelenleg a benchmarkot a közösség számára nyilvánosan elérhetővé tették, és a fejlesztő arra buzdítja a kutatókat, hogy használják a tesztet a saját modellekükben. A következő hónapokban várható, hogy több cég és egyetem fogja beépíteni ezt a módszert a modellek értékelési folyamatába, ami hosszú távon javíthatja a LLM-ek fizikai pontosságát.