爬行者读pdf

时间:2017-09-05 09:01:30

标签: node.js pdf phantomjs

我正在尝试创建一个可以读取pdf并从中提取某些信息的爬虫(以保存在数据库中)。

但是,我不确定使用哪种方法/工具。

我最初的想法是使用PhantomJs,但在阅读了很多内容后,它似乎没有能力。如果我想使用Phantomjs,我必须下载pdf,将其转换为HTML页面,然后使用Phantom抓取它,这似乎是一项繁琐的任务,应该能够更快地完成。

所以我的问题是,如何从在线资源中读取pdf并收集这些信息呢?

1 个答案:

答案 0 :(得分:1)

如果您不受编程语言的限制,请考虑使用iText。 它可以轻松地从给定的PDF文档中提取所有文本。它还提供实用程序方法来查找文件中的正则表达式,返回确切的位置(坐标)和匹配的文本。

iText适用于c#和java爱好者。

File inputFile = new File("");
PdfDocument pdfDocument = new PdfDocument(new PdfReader(inputFile));
String content = PdfTextExtractor.getTextFromPage(pdfDocument.getPage(1));

查看网站了解详情。 http://developers.itextpdf.com/content/itext-7-examples/itext-7-content-extraction-and-redaction