Új GroupDPO módszerrel optimalizálják a LLM-eket, csökken a memóriahasználat
A GroupDPO nevű új algoritmus jelentősen csökkenti a nagyméretű nyelvi modellek (LLM) betanításához szükséges memóriaigényt, miközben megőrzi a gradiensinformációkat.

Memóriahatékony csoportos preferenciális optimalizációs algoritmust fejlesztettek ki, amely forradalmasíthatja a LLM-ek betanítását — írja az ArXiv NLP.
A GroupDPO névre keresztelt módszer a hagyományos DPO (Direct Preference Optimization) hiányosságait orvosolja, amelyek jellemzően csak egy pozitív-negatív párt használnak fel promptonként, figyelmen kívül hagyva a preferenciális adathalmazokban rejlő további információkat. Az új megközelítés lehetővé teszi több válasz egyidejű kontrasztálását, miközben drasztikusan csökkenti a memóriaigényt.
A kulcs a gradiensinformációk megőrzésében és a minták szétválasztásában rejlik a backprop során. Ez a technika jelentősen mérsékli a csúcs memóriahasználatot, így nagyobb csoportméretekkel is skálázható betanítást tesz lehetővé. A DPO alapvetően a preferenciális igazítást egy osztályozási problémává alakítja, ahol a kiválasztott és elutasított válaszok alapján optimalizálják a modellt.
A számítási hatékonyság áttörése
A GroupDPO hatékonyságát offline és online igazítási beállításokban is bizonyították, ahol a több válasz felhasználása konzisztensen jobb eredményeket hozott. A fejlesztés különösen fontos, mivel a modellalapú deriváltmentes optimalizációs (DFO) módszerek, bár hatékonyan használják fel a függvénykiértékeléseket, komoly számítási terhelést jelentenek a szurrogát modellek felépítése és minimalizálása miatt.
A jövő modelljei
Az új GroupDPO algoritmus ezen kihívásokra kínál megoldást, és a fejlesztők szerint 2024-ben várható a módszer szélesebb körben történő alkalmazása az LLM-ek fejlesztésében, az ArXiv NLP szerint.