Frissítve: 12 perce·Ma: 58
Alkalmazások
AI által generált szöveg

Miasma: a nyílt forráskódú eszköz, amely csapdába ejti az AI web scraperseite

Több mint 500 csillagozást kapott a GitHubon a Miasma eszköz, amelyet austin-weeks fejlesztett ki.

Miasma: a nyílt forráskódú eszköz, amely csapdába ejti az AI web scraperseite
Fotó: Enchanted Tools / Unsplash
Forrás: Hacker NewsSzerző: AI Forradalom szerk.
Megosztás

Miasma, a nyílt forráskódú Rust‑al írt eszköz, 505 csillagot kapott a GitHubon, és a austin-weeks fejlesztőcsoportának egyik legnagyobb kiadását jelenti a 2026. március 29-i v0.1.18 verzióval. Az eszköz célja, hogy a weboldal tulajdonosok a saját szervereikre telepítve, egy /bots útvonalon keresztül “csapdába” ejtsék a nagy AI‑gyártók web scrape‑jeit. Miasma a „poison fountain” elnevezésű forrásból (https://rnsaffn.com/poison2/) szedi be a szennyezett adatmintákat, amelyeket a scraper-ek a saját tréningkészleteikbe illesztenek, így hatástalanul csökkentve a modellek minőségét.

Az eszköz működése a Nginx vagy más reverse proxy beállításával kezdődik. A link-prefix opcióval megadható a /bots útvonal, amelyre a rejtett HTML‑linkek (display:none; aria-hidden=true; tabindex=1) mutatnak. Ezek a linkek a scraper-ek számára láthatóak, míg a látogatók és a keresőmotorok számára teljesen elrejtettek maradnak. A proxy konfigurálása után a /bots/… kéréseket a 9855 porton futó Miasma szerverre irányítjuk, amely 50-60 MB memóriát használ, ha a max-in-flight értéke 50.

Miasma gyors és memóriatakarékos: a 500 in-flight kapcsolat limit mellett a memóriaszükséglet lineárisan nő, és a felesleges kérések 429-es hibát kapnak, így nem terhelik a szervert. A CLI lehetővé teszi a port, host, link‑count, és a gzip kényszerítése testreszabását. A poison-source beállításával a felhasználó saját szennyezett adatforrást is meghatározhat.

A projekt GPL‑3.0 licenc alatt áll, és a közösség nyitott a hibajelentésekre, de az AI‑generált kódrészletek automatikusan elutasításra kerülnek. Miasma jelenleg 7 fork és 1 figyelővel rendelkezik, de a GitHubon elérhető 3 kiadás, a legújabb 2026. március 29‑én jelent meg.

Jövőbeni fejlesztésekre nincs konkrét ütemterv, de a dokumentációban szereplő „poison-source” URL frissítése és a memóriakezelés finomhangolása a következő kiadásban várható. A webfejlesztőknek javasolt a robots.txt frissítése, hogy megvédjék a Googlebot, Bingbot és más barátságos botokat a /bots útvonaltól, miközben a rosszindulatú scraper-eket hatékonyan „elcsapják”.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom