将PDF文档转换为HTML格式的最佳解决方案是什么?该网站有几个PDF文档,访问者可以点击视图作为HTML,这应该在屏幕上以HTML文件的形式查看。
运行PHP,Linux,Apache的标准网站。
答案 0 :(得分:6)
pdftohtml工作正常:快速,稳定,但html结果充其量是丑陋的。我已经使用它一段时间了一个有很多工作简历的网站。
然而,它是提取文本内容的好方法。
我会试试scribd API
或谷歌应用文档API。 GOogle在显示和转换pdf文件方面表现非常出色
答案 1 :(得分:4)
您是否考虑过将PDF数据保存在数据库中,然后根据访问者的选择动态创建PDF或html页面?
答案 2 :(得分:4)
如果您在托管服务提供商处拥有命令行访问权限,则poppler_utils包中会有一个名为pdftohtml的实用程序。
http://poppler.freedesktop.org/
看起来很容易使用,没有从PHP内部调用它,但它应该可以工作。
答案 3 :(得分:1)
如果您准备从PHP调用Java,可以查看http://www.jpedal.org/html_index.php