Holotron-12B: A H Company új ügynökmodellje kétszeres átviteli sebességet hoz
A H Company piacra dobta új multimodális modelljét, a Holotron-12B-t, amely kifejezetten a számítógép-használati ügynökök teljesítményének és skálázhatóságának növelésére hivatott.

A Holotron-12B modellt kifejezetten olyan AI-ügynökök számára fejlesztették, amelyeknek interaktív környezetben kell érzékelniük, dönteniük és cselekedniük — írja a H Company blogja. A modell jelentősen növeli a következtetési hatékonyságot és csökkenti a memóriafogyasztást.
A modell a NVIDIA Nemotron architektúrájára épül, hibrid SSM (State-Space Model) és figyelmi mechanizmust használva. Ez a kialakítás a transzformer-alapú modellekkel szemben optimalizáltabb a nagy átviteli sebesség elérésére, különösen a hosszú kontextusú következtetések esetében.
A WebVoyager teljesítményteszt tesztjén a Holotron-12B több mint kétszeres átviteli sebességet ért el a Holo2-8B-hez képest — közölte a H Company. A teszt során a modell egyetlen H100 GPU-n futott, vLLM technológiával és a legújabb SSM optimalizációkkal.
A modell hatékonyan skálázódik a párhuzamosság növelésével, elérve a 8.9k token/s sebességet 100 egyidejű kérésnél, a H Company adatai szerint. Ezzel szemben a Holo2-8B modell maximális token-átviteli sebessége hamarabb, 5.1k token/s értéknél tetőzött. Ez a Nemotron architektúra egyik fő erősségét mutatja: hatékonyabb VRAM-kihasználást és kisebb memóriafogyasztást, ami nagyobb effektív kötegelési méretet tesz lehetővé azonos hardveren.
A Holotron-12B képzése két szakaszban zajlott: először a NVIDIA által közzétett Nemotron-Nano-12B-v2-VL-BF16 multimodális alapmodellből indultak ki, majd a H Company saját lokalizációs és navigációs adatbázisán finomhangolták, különös tekintettel a képernyőmegértésre és a felhasználói felület interakcióira. A modell már elérhető a Hugging Face platformon.