搜索大型PDF文件。使用什么技术?

时间:2017-09-06 22:46:02

标签: python pdf elasticsearch search indexing

我有一个侧面项目,我有大约1000个仅文本的PDF文件(平均大小约500 kb),我想在哪个数据集上进行快速自由文本搜索。搜索结果至少应该告诉匹配的文本,PDF文件包含匹配的文本以及PDF中的位置。

这个项目听起来像云托管弹性搜索的好候选人吗?或者这对于这个数据大小是否有点过分?我应该和Apache Lucene一起把它放在我自己的网络服务器上吗?或者完全不同的东西?

我还想在这个功能面前放置一个用户界面。我不是UI开发人员,我们的团队真的缺乏UI专业知识。

您能否建议一些在Rest API端点前生成UI的NoUI框架?有这样的事吗?

我们的语言偏好是这个团队中的python作为公约数。

1 个答案:

答案 0 :(得分:2)

我建立了一个申请人跟踪系统,其中包含超过20,000个简历,最适合您的方法是ElasticSearch,因为:

  
      
  1. 性能非常高
  2.   
  3. 搜索的准确率为100%
  4.   
  5. 使用最简单的API非常容易
  6.   
  7. 易于使用副本进行备份
  8.   

我建议使用ElasticSearch亚马逊服务ES

关于UI框架,我只使用JavaScript FineUploader,这使得我对分块和并行上传有很多帮助。