Böngészőben futó LiteParse-t készített Simon Willison — PDF-szövegkivonás AI nélkül
A LlamaIndex LiteParse nevű nyílt forráskódú eszközét Simon Willison tette elérhetővé webes felületen, amely közvetlenül a böngészőben von ki szöveget PDF-ekből.

A LlamaIndex nyílt forráskódú LiteParse projektje, amely egy Node.js CLI eszköz PDF-ekből történő szövegkivonásra, mostantól böngészőben is futtatható — írja Simon Willison a saját blogján.
A LiteParse működése nem AI-modellekre épül: hagyományos PDF-elemzést használ, és szükség esetén Tesseract OCR-re támaszkodik a képalapú szövegek feldolgozásához. A projekt a PDF-elrendezések bonyolultságát térbeli szövegelemzési heurisztikákkal oldja meg, így a szövegeket logikus, lineáris sorrendben adja vissza.
Simon Willison a Claude Code és Opus 4.7 AI asszisztensek segítségével hozta létre az eszköz böngészőben futó változatát. A fejlesztés során a LiteParse alapjául szolgáló PDF.js és Tesseract.js könyvtárakat használták, amelyek már korábban is bizonyítottak böngészős környezetben.
Az online verzió a https://simonw.github.io/liteparse/ címen érhető el, ahol a felhasználók közvetlenül a böngészőjükben nyithatnak meg PDF fájlokat, választhatnak OCR-es vagy anélküli módot, és kinyerhetik a szöveget.