快速全文搜索位于文件系统上的XML文件。选择什么策略?

时间:2013-01-07 21:22:30

标签: java xml search indexing

我需要对位于文件系统上的XML文件实施尽可能快的全文搜索。基本上我需要确定某些XML节点值是否包含特定关键字。 我考虑过几个选项:

  • 遍历目录中的文件 - >逐行读取文件 - >使用匹配器/模式来确定关键字是否在这里
  • 遍历目录中的文件 - >使用SAX解析器
  • 只要新文件到达目录(例如,使用Solr)然后查询索引引擎
  • ,就在所需的XML节点上创建索引

更好的选择策略和原因?

1 个答案:

答案 0 :(得分:0)

如果xml文件很小(几KB /几MB),那么我建议您应该逐行读取它们(或使用其他一些xml解析技术来读取它们)。当你有一个非常大的xml文件时,Solr将证明是有用的。 Solr也可以轻松读取小文件(但是,这一切都取决于你有多少时间)

不确定SAX解析器。

相关问题