Háromszoros sebességnövekedést hozhat a Google Gemma 4 modelljeinek spekulatív dekódolása
A Multi-Token Prediction (MTP) technológia egy könnyűsúlyú modell segítségével tippel előre tokeneket, amelyeket a fő modell párhuzamosan ellenőriz, így kihasználva a számítási ciklusokat.

Akár háromszor gyorsabban futhatnak a Google Gemma 4 nyílt AI modelljei a Multi-Token Prediction (MTP) drafterek és a spekulatív dekódolás révén — írja az Ars Technica.
A Google szerint ezek a kísérleti modellek a spekulatív dekódolás egy formáját alkalmazzák, amellyel előre megtippelik a következő tokeneket, felgyorsítva a generálást a hagyományos, autoregresszív módszerekhez képest. A legújabb Gemma modellek a Google Gemini AI-ját is hajtó technológiára épülnek, de lokális futtatásra optimalizálták őket. A Google a Gemma 4 licencét is megváltoztatta Apache 2.0-ra, ami sokkal megengedőbb, mint a korábbi egyedi Gemma licencek.
A MTP lényege, hogy egy könnyűsúlyú drafter modell spekulatív tokeneket generál párhuzamosan a fő modell ellenőrzésével, kihasználva a kihasználatlan számítási ciklusokat. A drafter modellek kisebbek (például a Gemma 4 E2B mindössze 74 millió paraméterrel rendelkezik), és optimalizálták őket a gyors spekulatív token-generálásra.
A számítási ciklusok táncának új lépései
A drafter tokeneket a célmodell (jelen esetben a Gemma) párhuzamosan ellenőrzi. Ha a modell egyetért, a teljes sorozatot egyetlen előremenő lépésben fogadja el. Ezzel párhuzamosan a nagyobb modell egy további tokent is generál, így a rendszer a vázlatos sorozatból és egy újonnan generált tokenből is képes tokeneket előállítani, ugyanannyi idő alatt, amennyi korábban egyetlen új token generálásához kellett.
Sebességnövekedés a hardverek birodalmában
A sebességnövekedés a Google szerint hardverfüggő. A Google tesztjei szerint a kisebb E2B és E4B Gemma modellek Pixel telefonokon 2,8x, illetve 3,1x gyorsabban futhatnak. A nagyobb Gemma 4 31B az Apple M4 szilíciumon 2,5x-es sebességnövekedést kap a MTP-vel. A Google már kiadta a MTP-vel ellátott Gemma 4 modellek új verzióit, amelyek 2024. március 15-étől elérhetők a Google Cloud-on.