Php - 上传doc,docx,pdf - 提取所有内容

时间:2012-01-28 22:15:29

标签: php pdf extract docx doc

  • 无论如何都要在上传文件时执行OCR吗?

  • 我们可以索引整个文件吗?

  • 搜索引擎可以索引整个文档吗?即使用户需要付费才能查看完整的文档?

  • 文档是否可以显示为预览,只有所选的摘录可见,其余模糊的文档格式仍可查看?

我一直在尝试使用简单的PHP函数或者看起来不像火箭科学的东西来找到这些问题的简单解决方案。但在我看到的每个地方,我都看到人们在谈论ApachePOI和Solr Cell以及我不知道的所有这些服务器命令。对于最后一个问题,我只能弄清楚我们可以使用PHPGD并生成内容模糊的图像,但如果文档中有格式化的文本,图像和表格等,我不确定如何使其工作。

因此,如果某人有简单的解决方案,或者甚至是带有EASY指令的复杂解决方案,那么这些都可以。类似于“用于noobs的php文档内容提取”,它将从a-b-c开始。

提前谢谢!

3 个答案:

答案 0 :(得分:1)

Zend_Search_Lucene包含一些用于读取docx文件的代码,该文件将仅在PHP中运行。

对于PDF和doc,您可以使用命令行实用程序来提取纯文本内容,例如catdoc或pdftotext。如果你四处搜索,你可以找到大多数文件格式的实用程序。它们通常由大多数发行版打包。

从原始文本格式,您可以将其提供给任何全文搜索引擎。

答案 1 :(得分:0)

  
      
  • 无论如何都要在上传文件时执行OCR吗?
  •   

当然,OCR适用于任何图像数据。 OCR组件确实存在,只需使用一个。

  
      
  • 我们可以索引整个文档吗?
  •   

我不能告诉你“我们”是否可以,但我可以索引文件。您只需要一个文档,索引和例程来索引文档。

  
      
  • 搜索引擎可以索引整个文档吗?即使用户需要付费才能查看完整的文档?
  •   

这取决于文档格式。如果文档受到保护且索引器无法完全访问它,则它无法完整地对其进行索引。另一方面,如果指数能够规避保护,它无论如何都可以对其进行索引,但在某些法律领域可能存在法律上的问题。从技术上讲,这应该不是问题。

  
      
  • 是否可以将文档显示为预览,只显示选定的摘录,其余模糊的文档格式仍可查看?
  •   

为什么不呢?我的意思是,如果你有这样的显示例程,这是什么交易?

如果您不熟悉所使用的技术是个问题,我建议您与熟悉的人联系,并向您解释。对于某些任务,组件应该存在,但是,您需要将它们组合在一起。你的问题太多了,所以有一个开箱即用的解决方案。

答案 2 :(得分:0)

多项式是正确的。你不会在一个地方找到这一切。即使是OCR也需要多个模块才能正常工作,而且这些模块都不会完全免费。如果您想要合理的OCR,那么您将需要使用商用引擎。

你需要一个Word DOC / DOCX到TIFF转换器以及一个PDF到TIFF转换器,否则你需要购买像ABBYY FineReader SDK这样的东西才能执行OCR,这不会便宜,但肯定会比Tesseract做得更好。 OCR。

索引和搜索可能很容易使用ApachePOI和Solr Cell,但模糊预览需要一些自定义编码。

这个项目不容易或便宜。