Valós idejű árelőrejelzéssel optimalizálja a kereskedési döntéseket az új FPILOT rendszer
A hagyományos megerősítéses tanuláson alapuló kereskedési ügynökök statikus politikákkal dolgoznak, és nem képesek figyelembe venni a valós idejű árelőrejelzéseket a döntéshozatal során.

Új optimalizációs módszert dolgoztak ki kutatók, amely valós idejű árelőrejelzésekkel javítja a megerősítéses tanuláson (reinforcement learning, RL) alapuló kereskedési ügynökök teljesítményét — derül ki az arXiv-on előnyomtatott formában megjelent tanulmányból.
A FPILOT (Financial Plugin Inference-time Learning for Optimal Trading) nevű rendszer a Model Predictive Control (MPC) elvei ihlették. Lényege, hogy a jövőbeli árakat előrejelző modell segítségével több lépéses ártrajektóriát készít, anélkül, hogy az ügynök portfóliója jelentősen befolyásolná az árakat.
A FPILOT rendszer működésének egyik kulcseleme, hogy
A jövőbeli árak tükre
a valós idejű árelőrejelzések használata, amelyek pontosabb és hatékonyabb kereskedési döntésekhez vezetnek.A rendszer minden döntési lépésnél felhasználja az előrejelzett ártrajektóriát egy allokáció-alapú hozamcél felépítésére. Ezután optimalizálja a politikát az inference-time fázisban, még mielőtt végrehajtaná a kereskedési lépést.
Ez a megközelítés lehetővé teszi, hogy az ügynök dinamikusan alkalmazkodjon a piaci változásokhoz, szemben a statikus, előre betanított politikákkal. A FPILOT bármilyen előre betanított RL ügynökkel kompatibilis, és rugalmasan adaptálja a kereskedési politikát a friss előrejelzésekhez.
Az
Ártrajektóriák kereszteződése
pontján a rendszer képes figyelembe venni a piaci trendeket és a várható ármozgásokat, ami a kereskedési döntések sokkal pontosabbá és hatékonyabbá válásához vezet.A tanulmány az arXiv:2605.12653v1 azonosító alatt érhető el, és részletesen bemutatja a FPILOT működését és előnyeit a hagyományos RL kereskedési stratégiákkal szemben, 2024. január 10-én tette közzé a kutatócsoport.