Alkalmazások2026. ápr. 24.frissítve: 00:30

Böngészőben futó LiteParse-t készített Simon Willison — PDF-szövegkivonás AI nélkül

A LlamaIndex LiteParse nevű nyílt forráskódú eszközét Simon Willison tette elérhetővé webes felületen, amely közvetlenül a böngészőben von ki szöveget PDF-ekből.

Fotó: Luke Chesser / Unsplash

forrás: Simon Willison·AI Forradalom szerk.·2026. április 24.

Megosztás

A LlamaIndex nyílt forráskódú LiteParse projektje, amely egy Node.js CLI eszköz PDF-ekből történő szövegkivonásra, mostantól böngészőben is futtatható — írja Simon Willison a saját blogján.

A LiteParse működése nem AI-modellekre épül: hagyományos PDF-elemzést használ, és szükség esetén Tesseract OCR-re támaszkodik a képalapú szövegek feldolgozásához. A projekt a PDF-elrendezések bonyolultságát térbeli szövegelemzési heurisztikákkal oldja meg, így a szövegeket logikus, lineáris sorrendben adja vissza.

Simon Willison a Claude Code és Opus 4.7 AI asszisztensek segítségével hozta létre az eszköz böngészőben futó változatát. A fejlesztés során a LiteParse alapjául szolgáló PDF.js és Tesseract.js könyvtárakat használták, amelyek már korábban is bizonyítottak böngészős környezetben.

Az online verzió a https://simonw.github.io/liteparse/ címen érhető el, ahol a felhasználók közvetlenül a böngészőjükben nyithatnak meg PDF fájlokat, választhatnak OCR-es vagy anélküli módot, és kinyerhetik a szöveget.

tetszett a cikk? oszd meg →

Megosztás