Frissítve: 12 perce·Ma: 58
Modellek & LLM
AI által generált szöveg

Az open source anyagok hiányosságai miatt nem bízhatunk az LLM-ekben

Több mint 75 gépi tanulási projektöt mutatnak be forrásunkban, miközben a szakemberek az open source anyagok hiányosságairól szóló vitát folytatják.

Az open source anyagok hiányosságai miatt nem bízhatunk az LLM-ekben
Fotó: Enchanted Tools / Unsplash
Forrás: Reddit MLSzerző: AI Forradalom szerk.
Megosztás

Az AI közösség újabb mérföldkőhöz érkezett: a forrásunkban több mint 75 gépi tanulási projektötletet teszünk közzé, mindegyikhez elérhető forráskód tartozik. Egyidejűleg a szakemberek egyre hangosabban vitatják, hogy az open source anyagok a gépi tanulás területén mennyire hiányosak, ami szerinteik szerint aláássa az LLM-ek megbízhatóságát.

Az open source projektek kulcsfontosságúak a tanulás, a prototípus‑építés és – talán legfontosabb – a nagy nyelvi modellek (LLM-ek) tréningje szempontjából. Ha a dokumentáció vagy a kódbázis csak részben fed le egy adott algoritmust, a fejlesztők könnyen hiányos mintákat használnak, ami a modell pontosságát és biztonságát is veszélyeztetheti.

Az LLM-ek kódot csak akkor tudnak helyesen értékelni, ha megfelelő mennyiségű és minőségű forráskódot láttak a tanulási fázisban – ahogyan egy Reddit felhasználó megjegyezte: 'Az LLM-eknek kódot kell tanulniuk ahhoz, hogy tudják osztályozni, helyes‑e vagy sem.' Ennek következtében a modellek gyakran a nyílt forráskódú projekteket használják tanító adatként, ami a szakértők szerint 99 % körüli valószínűséggel jár együtt a kódok "pirátizálásával".

A gyakorlati kockázatot tovább növeli, hogy a modellek néha elavult vagy sebezhető függőségeket javasolnak. Egy r/BetterOffline bejegyzésben azt említik, hogy egy 'Lite LLM' Python könyvtár már kompromittálódott, mert a generált kód régi csomagokra hivatkozott – egy tipikus példája annak, hogy a hiányos anyagok milyen közvetlen biztonsági réseket nyithatnak meg.

A szakértők úgy látják, hogy a közösségnek sürgősen bővítenie kell a nyílt forráskódú tananyagok körét, és szigorúbb ellenőrzést kell bevezetni a kódgenerálás után. Amíg ez nem valósul meg, a fejlesztőknek alaposan ellenőrizniük kell a modell által javasolt függőségeket, és a projektjeikhez megbízható, naprakész forráskódot kell keresniük.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom