需要一种工具来搜索大型结构文本文档中的单词,短语和相关短语

时间:2010-06-05 13:52:36

标签: full-text-search

我必须跟上结构化文件,其中包含提案请求,政府计划报告,威胁模型和各种类似的事情。正如我所说的那样,它们属于技术 - 法律背景:高度结构化,具有部分编号以及3,4和5级嵌套。全部用英语

我需要一种更有效的方法来找到对我来说很重要的那些段落。所以我想要的是一种本地文档索引/存储库,这将允许我有一些常设查询并轻松找到谈论我的查询的文档中的部分。这是一个例子:

  • 我想加载10个大型PDF文件,每个文件100页。每个PDF都包含英文文本,格式很好地分为段落和部分。

  • 我想说明我对“博客平台”,“Ruby的弱点”,“本地化和国际化”感兴趣

  • 理想情况下,请查看显示文本部分,文档名称以及其他似乎与我指定的单词和短语相关的信息的列表。

    < / LI>

我确信这样的事情存在。我会称之为文档索引,文档理解或结构化搜索。

2 个答案:

答案 0 :(得分:0)

看看Lucene:http://lucene.apache.org/和Solr http://lucene.apache.org/solr/,它可以完成您所要求的大部分内容。虽然它们并不是极其轻量级的!

还有这本优秀的书: http://www.amazon.com/Building-Search-Applications-Lucene-Lingpipe/dp/0615204252/

答案 1 :(得分:0)

Opengrok是另一种基于Lucene的轻量级解决方案:http://opengrok.github.io/OpenGrok/

或者,您可以查看http://www.alfresco.com, 这不是轻量级的解决方案,但它的设计完全符合您的目的。

相关问题