从pdf文件中提取所有图像和文本

时间:2017-05-07 16:45:51

标签: java python node.js pdf

我需要从pdf创建json,将pdf内容呈现为包含所有图像和文本的HTML。我已经尝试过以下模块来做到这一点。我现在只能提取普通图像,但无法提取图形图像和背景阴影图像。是否有任何模块可以获得这些?

尝试了模块

-PDFMiner (python)
-Mammoth(Node)   
-pdf2json(Node)   
-PDFBox(Java)

0 个答案:

没有答案