50%-kal kevesebb eszközt hív meg az ipari LLM-eknél a SPIN rendszer

A nagyméretű nyelvi modellekre (LLM) épülő ipari ágensrendszerek gyakran különválasztják a tervezést a végrehajtástól, ám a LLM-tervezők sokszor strukturálisan érvénytelen vagy feleslegesen hosszú munkafolyamatokat generálnak, ami hibákhoz és felesleges API-költségekhez vezet — írja az ArXiv-en megjelent tanulmány.

A kutatók most bemutatták a SPIN nevű tervezési burkolót, amely a validált irányított körmentes gráf (DAG) alapú tervezést prefix-alapú végrehajtásvezérléssel kombinálja. A SPIN egy szigorú DAG-szerződést kényszerít ki a _validate_plan_text funkcióval és javító promptokkal, így már a downstream végrehajtás előtt elkészíti a futtatható terveket. Ezután fokozatosan értékeli a DAG prefixeket, és leáll, amikor az aktuális prefix elegendő a lekérdezés megválaszolásához.

A hatékonyság növelésének művészete

Az AssetOpsBench teljesítményteszten, 261 forgatókönyvön keresztül a SPIN 1061-ről 623-ra csökkentette a végrehajtott feladatok számát, és 0,638-ról 0,706-ra javította a „Accomplished” metrikát. Emellett az eszközhívások számát is jelentősen, futásonként 11,81-ről 6,82-re mérsékelte. A MCP Bench platformon ugyanez a burkoló javította a tervezési, alapozási és függőségi pontszámokat mind a GPT OSS1, mind a Llama 4 Maverick modellek esetében.

A költséghatékonyság új dimenziója

A SPIN tehát nemcsak hatékonyabbá teszi az ipari LLM-alkalmazásokat, hanem jelentősen csökkenti a működési költségeket is azáltal, hogy optimalizálja a feladatvégrehajtást és az eszközhasználatot. A rendszer a 2026. május 13-án bemutatott tanulmány szerint a GPT OSS1 és a Llama 4 Maverick modelleknél is stabilabb és költséghatékonyabb megoldást kínál az ipari automatizálásban, 2026. május 13-án.