Új GroupDPO módszerrel optimalizálják a LLM-eket, csökken a memóriahasználat

A GroupDPO nevű új algoritmus jelentősen csökkenti a nagyméretű nyelvi modellek (LLM) betanításához szükséges memóriaigényt, miközben megőrzi a gradiensinformációkat.

Fotó: Dimitri Karastelev / Unsplash

Forrás: ArXiv NLP•Szerző: AI Forradalom szerk.•2026. április 21.

Megosztás

Memóriahatékony csoportos preferenciális optimalizációs algoritmust fejlesztettek ki, amely forradalmasíthatja a LLM-ek betanítását — írja az ArXiv NLP.

A GroupDPO névre keresztelt módszer a hagyományos DPO (Direct Preference Optimization) hiányosságait orvosolja, amelyek jellemzően csak egy pozitív-negatív párt használnak fel promptonként, figyelmen kívül hagyva a preferenciális adathalmazokban rejlő további információkat. Az új megközelítés lehetővé teszi több válasz egyidejű kontrasztálását, miközben drasztikusan csökkenti a memóriaigényt.

A kulcs a gradiensinformációk megőrzésében és a minták szétválasztásában rejlik a backprop során. Ez a technika jelentősen mérsékli a csúcs memóriahasználatot, így nagyobb csoportméretekkel is skálázható betanítást tesz lehetővé. A DPO alapvetően a preferenciális igazítást egy osztályozási problémává alakítja, ahol a kiválasztott és elutasított válaszok alapján optimalizálják a modellt.

A számítási hatékonyság áttörése

A GroupDPO hatékonyságát offline és online igazítási beállításokban is bizonyították, ahol a több válasz felhasználása konzisztensen jobb eredményeket hozott. A fejlesztés különösen fontos, mivel a modellalapú deriváltmentes optimalizációs (DFO) módszerek, bár hatékonyan használják fel a függvénykiértékeléseket, komoly számítási terhelést jelentenek a szurrogát modellek felépítése és minimalizálása miatt.

A jövő modelljei

Az új GroupDPO algoritmus ezen kihívásokra kínál megoldást, és a fejlesztők szerint 2024-ben várható a módszer szélesebb körben történő alkalmazása az LLM-ek fejlesztésében, az ArXiv NLP szerint.