ÉlőUtoljára: 43 perceMa: 23
Alkalmazásokfrissítve: 22:30

Böngészőben futó LiteParse-t készített Simon Willison — PDF-szövegkivonás AI nélkül

A LlamaIndex LiteParse nevű nyílt forráskódú eszközét Simon Willison tette elérhetővé webes felületen, amely közvetlenül a böngészőben von ki szöveget PDF-ekből.

Böngészőben futó LiteParse-t készített Simon Willison — PDF-szövegkivonás AI nélkül
Fotó: Fotó: Luke Chesser / Unsplash
forrás: Simon Willison·AI Forradalom szerk.·
Megosztás

A LlamaIndex nyílt forráskódú LiteParse projektje, amely egy Node.js CLI eszköz PDF-ekből történő szövegkivonásra, mostantól böngészőben is futtatható — írja Simon Willison a saját blogján.

A LiteParse működése nem AI-modellekre épül: hagyományos PDF-elemzést használ, és szükség esetén Tesseract OCR-re támaszkodik a képalapú szövegek feldolgozásához. A projekt a PDF-elrendezések bonyolultságát térbeli szövegelemzési heurisztikákkal oldja meg, így a szövegeket logikus, lineáris sorrendben adja vissza.

Simon Willison a Claude Code és Opus 4.7 AI asszisztensek segítségével hozta létre az eszköz böngészőben futó változatát. A fejlesztés során a LiteParse alapjául szolgáló PDF.js és Tesseract.js könyvtárakat használták, amelyek már korábban is bizonyítottak böngészős környezetben.

Az online verzió a https://simonw.github.io/liteparse/ címen érhető el, ahol a felhasználók közvetlenül a böngészőjükben nyithatnak meg PDF fájlokat, választhatnak OCR-es vagy anélküli módot, és kinyerhetik a szöveget.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom