Katonai biztonsági teljesítménytesztet kapnak a LLM-ek: az ARMOR 2025 jogi és etikai normákat mér

Új biztonsági teljesítménytesztet vezettek be a nagy nyelvi modellek (LLM) katonai alkalmazásainak értékelésére — derül ki az arXiv előnyomtatott tanulmányából. Az úgynevezett ARMOR 2025 célja, hogy a mesterséges intelligencia rendszerek megbízható és jogilag megfelelő döntéstámogatást nyújtsanak a hadsereg számára.

A kutatók szerint a meglévő biztonsági teljesítménytesztek elsősorban az általános társadalmi kockázatokra fókuszálnak, és nem tesztelik, hogy a modellek betartják-e a katonai műveleteket szabályozó jogi és etikai normákat. A LLM-eket egyre gyakrabban vizsgálják védelmi alkalmazásokhoz, ahol kulcsfontosságú a megbízható és jogilag megfelelő döntéstámogatás.

A katonai döntéshozatal súlypontjai

Az ARMOR 2025 teljesítményteszt három alapvető katonai doktrínán alapul: a hadijogon (Law of War), az alkalmazási szabályokon (Rules of Engagement) és a közös etikai szabályzaton (Joint Ethics Regulation). Ezekből a forrásokból doktrinális szövegeket emeltek ki, majd többválasztós kérdéseket generáltak, amelyek megőrzik az egyes szabályok eredeti jelentését.

Értékelés a katonai valóság tükrében

A teljesítménytesztet egy olyan taxonómia szerint szervezték, amely az Observe, Orient, Decide (OOD) keretrendszerből merít. Ez a struktúra biztosítja, hogy az értékelés tükrözze azokat a doktrinális szabványokat, amelyek a valós katonai műveleteket irányítják.

Az ARMOR 2025 az arXiv:2605.00245v1 azonosító alatt érhető el, 2025-ben várható a hadseregben történő alkalmazása.