Google két új TPU-t mutatott be: a 8t a képzést, a 8i az inferenciát gyorsítja
Az új TPU 8t a határterületi AI-modellek képzési idejét hónapokról hetekre csökkenti, míg a TPU 8i az inferencia hatékonyságát növeli.

Két új, nyolcadik generációs Tensor Processing Unit (TPU) chipet mutatott be a Google, amelyek a vállalat szerint gyorsabb és hatékonyabb AI-platformot biztosítanak. A TPU 8t a modellképzésre, a TPU 8i pedig az inferenciára (következtetésre) lett optimalizálva — írja az Ars Technica.
A Google szerint az úgynevezett „ügynök-korszak” alapvetően eltér a korábbi AI-rendszerektől, ami új hardveres megközelítést tesz szükségessé. A TPU 8t szerverklaszterek, vagyis „podok” már 9600 chipet tartalmaznak, két petabájt megosztott, nagy sávszélességű memóriával. A vállalat szerint a TPU 8t akár egy millió chipre is skálázható egyetlen logikai klaszterben, és podonként 121 FP4 EFlops számítási teljesítményt nyújt, ami közel háromszorosa az Ironwood (hetedik generációs TPU) képzési teljesítményének.
Hatékonyság az ügynököknek
A TPU 8t a Google szerint 97 százalékos „goodpute” aránnyal működik, ami kevesebb várakozást és felesleges erőfeszítést jelent. Ez a hatékonyság többek között a szabálytalan memóriahozzáférés jobb kezelésének, a hardverhibák automatikus kezelésének és az összes csatlakoztatott chip valós idejű telemetriájának köszönhető.
Az inferencia feladatait a TPU 8i látja el, amelyet kifejezetten több specializált ügynök hatékony futtatására terveztek. A TPU 8i podok 1152 chipet tartalmaznak, szemben az előző generációs Ironwood inferencia klaszterek 256 chipjével, és podonként 11,6 EFlops teljesítményt nyújtanak. A Google megháromszorozta a TPU 8i chipeken lévő SRAM mennyiségét, 384 MB-ra, ami nagyobb kulcs-érték gyorsítótárat és hosszabb kontextusablakokat tesz lehetővé.
Ezek a nyolcadik generációs AI-gyorsítók az első Google TPU-k, amelyek kizárólag a vállalat egyedi Axion ARM CPU-jára támaszkodnak, minden két TPU-hoz egy CPU tartozik. A Google szerint ez a „full-stack” ARM-alapú megközelítés sokkal nagyobb hatékonyságot tesz lehetővé, szemben az Ironwood x86-os CPU-jával, amely négy TPU chipet szolgált ki. A TPU 8t és TPU 8i chipek a jövőben a Google Gemini-alapú ügynökeit fogják meghajtani, de a külső fejlesztők számára is elérhetőek lesznek, támogatva a JAX, MaxText, PyTorch, SGLang és vLLM keretrendszereket.