Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Új GroupDPO módszerrel optimalizálják a LLM-eket, csökken a memóriahasználat

A GroupDPO nevű új algoritmus jelentősen csökkenti a nagyméretű nyelvi modellek (LLM) betanításához szükséges memóriaigényt, miközben megőrzi a gradiensinformációkat.

Új GroupDPO módszerrel optimalizálják a LLM-eket, csökken a memóriahasználat
Fotó: Dimitri Karastelev / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

Memóriahatékony csoportos preferenciális optimalizációs algoritmust fejlesztettek ki, amely forradalmasíthatja a LLM-ek betanítását — írja az ArXiv NLP.

A GroupDPO névre keresztelt módszer a hagyományos DPO (Direct Preference Optimization) hiányosságait orvosolja, amelyek jellemzően csak egy pozitív-negatív párt használnak fel promptonként, figyelmen kívül hagyva a preferenciális adathalmazokban rejlő további információkat. Az új megközelítés lehetővé teszi több válasz egyidejű kontrasztálását, miközben drasztikusan csökkenti a memóriaigényt.

A kulcs a gradiensinformációk megőrzésében és a minták szétválasztásában rejlik a backprop során. Ez a technika jelentősen mérsékli a csúcs memóriahasználatot, így nagyobb csoportméretekkel is skálázható betanítást tesz lehetővé. A DPO alapvetően a preferenciális igazítást egy osztályozási problémává alakítja, ahol a kiválasztott és elutasított válaszok alapján optimalizálják a modellt.

A számítási hatékonyság áttörése

A GroupDPO hatékonyságát offline és online igazítási beállításokban is bizonyították, ahol a több válasz felhasználása konzisztensen jobb eredményeket hozott. A fejlesztés különösen fontos, mivel a modellalapú deriváltmentes optimalizációs (DFO) módszerek, bár hatékonyan használják fel a függvénykiértékeléseket, komoly számítási terhelést jelentenek a szurrogát modellek felépítése és minimalizálása miatt.

A jövő modelljei

Az új GroupDPO algoritmus ezen kihívásokra kínál megoldást, és a fejlesztők szerint 2024-ben várható a módszer szélesebb körben történő alkalmazása az LLM-ek fejlesztésében, az ArXiv NLP szerint.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom