Az OpenMed 165 dollárból képzett mRNA nyelvi modelleket 25 fajra
A projekt a fehérje 3D-szerkezetének előrejelzésétől a kodonoptimalizált DNS-szekvenciákig terjedő, végponttól-végpontig folyamat, amit a Hugging Face publikált.

Az OpenMed mindössze 165 dollárból képzett mRNA nyelvi modelleket 25 különböző fajra, mindössze 55 GPU-óra alatt — írja a Hugging Face blogja.
A projekt célja egy olyan AI-folyamat létrehozása volt, amely a terápiás fehérjekoncepciótól a szintézisre kész, kodonoptimalizált DNS-szekvenciáig jut el. A fejlesztés során három fő szakaszra fókuszáltak: a fehérje 3D-s szerkezetének előrejelzésére, az adott szerkezetet alkotó aminosav-szekvenciák tervezésére, valamint az alapul szolgáló DNS-kodonok optimalizálására a hatékony fehérjeexpresszió érdekében a célorganizmusban.
A kodonoptimalizálás területén a CodonRoBERTa-large-v2 modell bizonyult a legjobbnak, 4,10-es perplexitással és 0,40-es Spearman CAI korrelációval. Ez az eredmény hatszorosan felülmúlta a ModernBERT teljesítményét, ami azt mutatja, hogy a RoBERTa architektúra kiválóan alkalmas a kodonszintű nyelvi modellezésre.
A csapat 250 000 E. coli kódoló szekvencián (CDS) végezte a betanítást, majd a legjobb modellt 25 fajra skálázta. Négy produkciós modellt képeztek 55 GPU-óra alatt, és egy fajspecifikus rendszert építettek, amely nyílt forráskódú projektek között egyedülálló.