Saját LLM-et építhet bárki a GitHub új workshopjával — akár egy óra alatt

Saját, működő GPT-modellt építhet és taníthat be a nulláról bárki, akár egy MacBookon is, egy új, „Train Your Own LLM From Scratch” című workshop segítségével — írja a GitHubon angelos-p.

A projekt Andrej Karpathy nanoGPT-jére épül, de azt leegyszerűsíti, hogy egy körülbelül 10 millió paraméteres modell egy órán belül betanítható legyen egy laptopon. A workshop keretében a felhasználók maguk írják meg a tokenizálót, a modell architektúráját (transzformer, beágyazások, figyelemrétegek), a betanítási ciklust és a szöveggenerálást.

A workshop nem használ „fekete doboz” könyvtárakat vagy előre betanított modelleket, így a résztvevők mélyrehatóan megérthetik az egyes komponensek működését és célját. A képzéshez Python 3.12+ és alapvető Python-olvasási készség szükséges, gépi tanulási tapasztalat nem. A betanítás automatikusan használja az Apple Silicon GPU-t (MPS), NVIDIA GPU-t (CUDA) vagy a CPU-t.

A workshop hat részből áll, amelyek a karakter-szintű tokenizálástól a teljes GPT-modell architektúrán át a betanítási folyamatig és a szöveggenerálásig vezetnek. A „Medium” konfiguráció alapértelmezés szerint 10 millió paraméterrel, 6 réteggel és 384 beágyazási dimenzióval dolgozik, betanítása M3 Pro chipen körülbelül 45 percet vesz igénybe.