如何在HTML中转换PDF?

时间:2011-08-19 12:21:59

标签: html pdf

我知道这里有一些类似的问题,但我看到了所有这些问题,没有人仍然满足我。

好吧,我试过xpdf和pdftohtml两者都很棒,但旧的和新版本的PDF似乎都行不通。

我的问题是找到一种方法,允许我将任何PDF或Doc转换为HTML并保持样式和结构。如果有人有所作为,甚至付出了完美的代价。

2 个答案:

答案 0 :(得分:2)

好吧,我尝试了一些专门用于Linux的库,但这是我的中间结论。

PDFtoHTML太旧了,没有考虑所有新的PDF规范,例如PDF 1.7(主要是因为它使用xpdf 2.02,而xpdf已经在他的3版本中)

我发现Poppler继续PDFtoHTML开发以及一些非常有用的新工具,而不是PDFTOHTML。实际上,在开源中,Poppler是一个能够更好地复制我的复杂PDF的人。 Here一个我几乎可以使用的。

最后,这就是我要用的东西。 ImageMagick + Poppler。我将我的PDF转换为图像,并使用Poptoler of PDFtoHTML的XML输出在我的图像上添加一个新图层。

答案 1 :(得分:1)

和我一样,我正在寻找从PDF到HTML甚至更好的XHTML的自动转换工具。嗯,这只是两个方面,但毕竟http://www.pdfonline.com(在线PDF到HTML)对我来说做得最好。它甚至可以过滤并正确显示表格和paragraphes,而不仅仅是短语!

我的工作仍然不够,所以我手动生成了一个模板文件。