BatteryPass-12K: Új adatkészlet ellenőrzi az EU digitális akkumulátor-útleveleit
Az új adathalmaz a valós pilot mintákból szintetikusan generált adatokkal segíti a nyelvi modelleket az EU akkumulátor-útlevél szabályozásának betartásában.

Új feladatot és az első nyilvános adatkészletet mutatták be a digitális akkumulátor-útlevelek (DBP) megfelelőségének osztályozására. A BatteryPass-12K névre keresztelt adathalmazt valós pilot mintákból szintetikusan hozták létre — derül ki az arXiv előnyomtatott tanulmányából.
Az adatkészlet bevezetésére azért volt szükség, mert az EU hamarosan hatályba lépő akkumulátor-szabályozása megköveteli a DBP-ket, de eddig nem létezett nyilvános adathalmaz a megfelelőség ellenőrzésére. A kutatók 22 különböző nyelvi modellt (SLM-eket, MoE-ket és sűrű LLM-eket) értékeltek zero-shot következtetésben.
A gondolkodó modellek teljesítenek a legjobban
Az elemzés szerint a „gondolkodó” modellek, mint például a GPT-5.4, mutatták a legjobb teljesítményt. A GPT-5.4 átlagosan 0,98 (0,03) F1-pontszámot ért el a validációs halmazon és 0,71 (0,22) F1-pontszámot a teszthalmazon — írja az arXiv tanulmánya. A kevés példával történő betanítás jelentősen javítja a modellek teljesítményét.
A kutatás rávilágított arra is, hogy a feladat még a fejlett, általánosan képes határmodellek számára is kihívást jelent. Ráadásul a modellparaméterek puszta skálázása nem garantálja a jobb teljesítményt ezen a specifikus feladaton. A BatteryPass-12K adathalmaz bináris osztályozásra készült, hogy megállapítsa, egy DBP konform vagy nem konform.