algorithm - 快速文本搜索日志

快速文本搜索日志

时间：2008-10-02 18:16:34

标签： algorithm search full-text-search scalability

这是我遇到的问题，我有一组可以快速增长的日志。它们每天都被分成单独的文件，文件可以很容易地增长到一个大小的演出。为了帮助缩小尺寸，超过30天左右的条目将被清除。

问题是我想在这些文件中搜索某个字符串。现在，Boyer-Moore搜索速度慢得令人难以置信。我知道像dtSearch这样的应用程序可以使用索引提供非常快速的搜索，但是我不确定如何在不占用日志占用空间的情况下实现这一点。

我可以查看哪些资源可以提供帮助吗？我真的在寻找一种标准算法来解释我应该怎么做才能构建索引并用它来搜索。

编辑：
Grep无法运行，因为此搜索需要集成到跨平台应用程序中。我无法将任何外部程序包含在其中。

它的工作方式是有一个带有日志浏览器的Web前端。这与自定义C ++ Web服务器后端进行了对话。此服务器需要在合理的时间内搜索日志。目前正在搜索几个日志，需要很长时间。

编辑2：其中一些建议很好，但我必须重申，我无法整合另一个应用程序，这是合同的一部分。但是，为了回答一些问题，日志中的数据不同于接收到的医疗保健特定格式的消息或与这些格式相关的消息。我希望依赖索引，因为虽然重建索引可能需要一分钟，但搜索目前需要很长时间（我已经看到它需要2.5分钟）。此外，在记录之前，很多数据都被丢弃了。除非启用某些调试日志记录选项，否则将忽略超过一半的日志消息。

搜索基本上是这样的：网络表单上的用户会看到最新消息的列表（在滚动时从磁盘流式传输，yay用于ajax），通常，他们会想要搜索带有其中的一些信息，可能是患者ID，或者他们发送的一些字符串，因此他们可以将字符串输入搜索。搜索以异步方式发送，并且自定义Web服务器一次性线性搜索1MB的日志以获得某些结果。当日志变大时，此过程可能需要很长时间。而这正是我想要优化的。

6 个答案:

答案 0 :(得分：5)

对于我来说，{p> grep通常对我来说非常好（有时候是12G +）。您也可以找到Windows here的版本。

答案 1 :(得分：2)

您很可能希望将某种类型的索引搜索引擎集成到您的应用程序中。那里有几十个，Lucene似乎很受欢迎。检查这两个问题以获得更多建议：

Best text search engine for integrating with custom web app?

How do I implement Search Functionality in a website?

答案 2 :(得分：2)

查看Lucene用来做其事情的算法。但是，它们不太可能非常简单。我曾经不得不一次研究其中的一些算法，其中一些非常复杂。

如果您可以识别要索引的文本中的“单词”，只需构建一个大的哈希表，将单词的哈希值映射到每个文件中的出现位置。如果用户经常重复相同的搜索，请缓存搜索结果。搜索完成后，您可以检查每个位置以确认搜索字词落在那里，而不仅仅是具有匹配哈希的字词。

另外，谁真的关心索引是否大于文件本身？如果您的系统真的如此庞大，活动如此之多，那么世界末日的索引会有几十个演出吗？

答案 3 :(得分：0)

有关您正在执行的搜索类型的详细信息肯定会有所帮助。为什么，特别是你想依赖索引，因为你必须在日志翻转时每天重建它？这些日志中包含哪些信息？有些可以在被记录之前被丢弃吗？

这些搜索现在需要多长时间？

答案 4 :(得分：0)

您可能想查看BSD grep的来源。您可能无法依赖grep在那里为您服务，但没有任何东西说您无法重新创建类似的功能，对吧？

答案 5 :(得分：-2)

Splunk非常适合搜索大量日志。为你的目的可能是矫枉过正。您根据要处理的数据量（日志大小）进行支付。我很确定他们有一个API，所以如果你不想，你就不必使用他们的前端。