java - 从pdf文件中提取所有图像和文本 - Thinbug

从pdf文件中提取所有图像和文本

时间：2017-05-07 16:45:51

标签： java python node.js pdf

我需要从pdf创建json，将pdf内容呈现为包含所有图像和文本的HTML。我已经尝试过以下模块来做到这一点。我现在只能提取普通图像，但无法提取图形图像和背景阴影图像。是否有任何模块可以获得这些？

尝试了模块

-PDFMiner (python)
-Mammoth(Node)   
-pdf2json(Node)   
-PDFBox(Java)

0 个答案:

没有答案