xml - 如何将pdf文档转换为xml并获取包含表数据的部分。

时间：2015-07-27 01:35:17

标签： xml pdf mupdf xpdf

有 pdf文档，我想将其转换为 xml 或 html 。

由于pdf文档包含一些表格，当它转换为 xml 或 html 时，我不知道哪个是表格数据，哪个是文本。

我想获取表数据来存储数据库。

xpdf 或 mupdf 可以制作吗？

感谢。

答案 0 :(得分：1)

PDF（通常）不包含有关文本的信息。文本是文本，没有信息可以识别表格中的文本。

因此，对于任何PDF阅读应用程序而言，不是可靠方式将文本识别为表格的一部分。所以MuPDF无法告诉你这个。

当然，您可以尝试自己应用启发式算法，在同一垂直偏移处的行中识别文本，并查找在常规x偏移处水平间隔的文本。

答案 1 :(得分：0)

您可以查看免费表格 https://tabula.technology/

“用于释放锁定在PDF文件中的数据表的工具”。

这是一个Web应用程序。您可以在Linux或Windows盒子上安装tabula，然后在其他PC上使用它。