2,8-szoros gyorsulást ígér a Google új TPU 8 chipje a képzésben
A Google a Cloud Next konferencián mutatta be a képzésre optimalizált TPU 8t és az inferenciára szánt TPU 8i gyorsítókat, melyekkel jelentősen növelheti a LLM-ek hatékonyságát.

A Google nyolcadik generációs tenzor feldolgozó egységei (TPU 8) akár 2,8-szor gyorsabbak a képzésben és 80 százalékkal nagyobb teljesítményt nyújtanak dolláronként a LLM inferenciához, mint a tavalyi Ironwood TPU-k — írja a The Register. A vállalat ezzel a lépéssel az AI chip piacán kívánja megerősíteni pozícióját.
A jelentős gyorsulás érdekében a Google kettős fejlesztési stratégiát alkalmaz: a TPU 8t-t a modellképzésre, a TPU 8i-t pedig az inferenciára optimalizálták. Emellett a x86-os processzorokat saját fejlesztésű, Arm-alapú Axion CPU-kra cserélik a TPU-k hostjaként, hasonlóan ahogy az Amazon is tette a Graviton és Trainium 3 esetében.
A számítási teljesítmény fokozása
A Google nemcsak a chipek szintjén, hanem a klaszterek kialakításában is mélyreható specializációt vezetett be. Új hálózati topológiákat fejlesztettek ki a skálázási veszteségek minimalizálására, akár 9600 gyorsítót is összekapcsolva egyetlen egységes podban, optikai kapcsolókkal. A Virgo Network nevű új hálózati szövet akár 134 000 TPU-t is képes összekötni adatközpontonként, és a Google állítása szerint akár egymillió TPU-t több helyszín összekapcsolásával.
A TPU 8t minden gyorsítója 216 GB HBM memóriával rendelkezik, 6,5 TB/s sávszélességgel, 128 MB on-chip SRAM-mal és akár 12,6 petaFLOPS 4-bites lebegőpontos számítási teljesítménnyel. Összehasonlításképp, a Nvidia Rubin GPU-i 35 petaFLOPS FP4 képzési teljesítményt és 288 GB HBM4 memóriát kínálnak 22 TB/s sávszélességgel. Bár a Nvidia chipjei egyedileg gyorsabbak, a Google a skálázhatóságban látja az előnyt, hiszen a modellképzéshez több ezer chip együttes munkájára van szükség.
Hálózati innovációk és skálázhatóság
Az inferenciára optimalizált TPU 8i a memóriasávszélességre fókuszál. A chip 10,1 petaFLOPS FP4 számítási teljesítményt nyújt, 384 MB on-chip SRAM-mal és 288 GB HBM memóriával, 8,6 TB/s sávszélességgel. A nagyobb SRAM-gyorsítótár segít a kulcs-érték gyorsítótár (a modell rövid távú memóriája) chipen tartásában, csökkentve az adatokra való várakozási időt. A Google szerint a TPU 8i kollektív gyorsító motorja (CAE) ötszörösére csökkenti a kollektív kommunikációs késleltetéseket, ami jobb gazdaságosságot eredményez.
A Google a Cloud Next konferencián mutatta be az új TPU 8t és TPU 8i gyorsítókat, amelyek 2024-ben lesznek elérhetők a Google Cloud szolgáltatásban.