是否有用于从URL解析搜索术语的良好开源库?

时间:2010-10-05 19:32:39

标签: parsing log-analysis

我正在寻找一个解析日志文件(或传入请求)的库,并在请求来自搜索引擎时提取搜索条件。

有没有提供此功能的好库?

任何语言都可以。

2 个答案:

答案 0 :(得分:0)

Java拥有Lucene框架,这是一个高性能的文本搜索引擎。日志文件可以使用它,但对于传入的请求可能会更棘手。你是否需要在流媒体时解析它?

答案 1 :(得分:0)

有很多方法可以获取,解析和分析您所说的数据。

很简单,您可以使用日志文件文本并将它们导入SQL数据库进行分析(允许您查看其他请求等)。

您可以使用Google Analytics等软件服务。

或者我个人的最爱:

SQL INSERT写入跟踪表。这样做,您可以将字符串解析为子句 - 非常简单地用单词分隔。这样做的缺点是你会错过关键词短语,例如“纽约”(两个单词)。

建议Lucene的人提供了一些信息,可能会让你梦想一个非常整洁的分析仪,但要获得一个完整的解决方案需要很多工作。 Lucene和Solr的优点是他们可以使用他们的标准库来标记关键字字符串(在你有CompoundWords或CamelCaseKeywords的情况下分解两到三个单词子句)。

从实际的角度来看,我认为通过使用现成的东西,例如Google Analytics,您可以获得最佳效果。如果您有时间和技能,将记录插入数据库可以在添加时变成非常强大的功能。