Egy 9 soros seed és 5 kör kontrasztív visszajelzés felülmúlja az Optunát 96%-ban
A Reddit felhasználók szerint a kontrasztív visszajelzés technika hatékonysága a szabályozatlan betanítással kombinálva 20%-kal növelte a modell teljesítményét.

A Reddit MachineLearning közösségében megjelent egy új LLM fejlesztés, amely 9 soros seedekkel és öt kontrasztív visszajelzés körrel működik. A felhasználók kimutatták, hogy a szabályozatlan betanítással kombinálva a módszer 20%-kal növelte a modell teljesítményét.
Ez a megközelítés jelentősen felülmúlja a hagyományos Optuna alapú hyperparaméter‑optimalizálást: a teljesítménytesztek 96%-án a kontrasztív visszajelzéssel finomhangolt modell jobb eredményeket ért el, mint az Optuna által meghatározott paraméterekkel rendelkező változat.
Technikailag a 9 soros seed egy előre definiált, rövid szövegkészlet, amely a modell betanításának kiindulópontját adja. Az öt kör kontrasztív visszajelzés során a modell különböző válaszokat generál, majd a felhasználók vagy automatikus szűrők alapján eldöntik, melyik a „jobb” vagy „rosszabb”, és ezt a visszajelzést a finomhangoláshoz használják.
A módszer hatására a modell a kontrasztív visszajelzés által generált különbségeket hatékonyabban tanulja meg, ami a komplex feladatok, például a szövegértelmezés és a kreatív írás terén mutatott jobb pontosságot eredményez. A Reddit közösség szerint ez a technika a szabályozatlan betanítás előnyeit ötvözi a célzott finomhangolással.
Jelenleg a kutatók a módszer skálázhatóságát vizsgálják, és várható, hogy a következő hetekben több teljesítményteszten is publikálják a részletes eredményeket. A közösség figyeli, hogy mikor kerül elérhetővé a teljes kód és a tréning adathalmazok, hogy más kutatók is reprodukálhassák a sikert.