Az OpenAI modellje 20%-kal pontosabban generál hipotéziseket a CrossTrace adathalmazzal
A CrossTrace adathalmaz 1389 darab, tudományosan megalapozott okoskodási nyomot tartalmaz, amelyek három különböző területen oszlanak meg: biomedicina, AI/ML és többterületű munka.

A CrossTrace adathalmaz 1 389 tudományosan megalapozott okoskodási nyomot tartalmaz, melyek 518 darab biomedicínáról, 605 darab AI/ML-ről és 266 darab többterületű kutatásról szól. Minden nyom egy struktúrált gondolati láncot mutat be: a meglévő tudásból, köztes logikai lépésekből, egészen egy új hipotézisig, mindegyik lépés konkrét forrásszöveghez van kötve.
Az új adathalmaz a tudományos hipotézisgenerálás egyik legnagyobb kihívását célozza meg: a szöveges forrásokból származó, ellenőrizhető lépéseken keresztül történő gondolkodásmódot. A CrossTrace elsődleges célja, hogy a modellnek adjon olyan mintákat, amelyeket több tudományterületen is alkalmazhat.
A kutatók a Qwen2.5-7B-Instruct modellt finomhangolták QLoRA technikával a CrossTrace adatokon, és jelentős javulást ért el az IAScore mutatóban. Az alapmodell 0,828-as pontszámát a finomhangolt változat 20 % -kal emelte.
Az eredmények alapján a CrossTrace adathalmaz képes a modellnek új, átlagon felüli hipotéziseket generálni, miközben megtartja a logikai következetességet és a forrásokhoz való hivatkozást.
Jövőben a kutatók a CrossTrace mintáit felhasználva további finomhangolásokat és új alkalmazási területeket tesztelnek, hogy a tudományos kutatás hatékonyságát még tovább növeljék.