Személyre szabott borítóképeket hoz az ICG — MLLM és diffúziós modellek együttműködése
Az ICG keretrendszer MLLM-alapú promptokat és személyre szabott preferenciákat kombinál, hogy kontextuálisan releváns borítóképeket hozzon létre, növelve a felhasználói elköteleződést.

Az ICG egy új keretrendszer javítja a borítóképek generálását, integrálva a multimodal large language model (MLLM) alapú promptokat és a személyre szabott preferenciák igazítását a jobb minőség és relevancia érdekében. A rendszer célja a felhasználói elköteleződés növelése digitális platformokon.
Az ICG meta tokenek segítségével vonja ki a szemantikai jellemzőket a címekből és referenciaképekből, majd felhasználói beágyazásokkal finomítja ezeket. Az így létrejött személyre szabott kontextus kerül a diffúziós modellbe, ami magasabb minőségű, kontextushoz illeszkedő borítóképeket eredményez.
Kapcsolódó: LLM inkonzisztencia
A személyre szabás kulcsa
A kutatók multi-reward tanulási stratégiát alkalmaztak a címkézés hiányának pótlására. Ez a megközelítés nyilvános esztétikai és relevancia-jutalmakat, valamint egy felhasználói viselkedésből tanult személyre szabott preferenciamodellt kombinál.
Kapcsolódó: AI torzítás csökkentése
Az ICG adapterként működik a MLLM-ek és a diffúziós modellek között, lehetővé téve az end-to-end betanítást. Ez az architektúra eltér a korábbi, kézzel készített promptokra és különálló modulokra támaszkodó rendszerektől.
Kapcsolódó: személyre szabott LLM
A modell teljesítménye
A kísérletek kimutatták, hogy az ICG jelentősen javítja a képek minőségét, szemantikai hűségét és személyre szabását. A modell március 31-én kerül nyilvánosságra az ICG által, ahol a 2024-es évre vonatkozó tervek szerint további fejlesztéseket és optimalizálásokat fognak végrehajtani.
Kapcsolódó: MLLM képleírások