网站挖掘工具

时间:2008-10-03 05:53:53

标签: site-mining

这里提出的许多问题都与我正在进行的研究有关。这些问题和答案分布广泛,并不总是很容易找到,进行手动浏览,有时也会在不相关的主题中发表有见地的答案或评论。

我想自动找到这些相关的Q& A,基于关键词集,然后使用这些信息作为进一步深入研究的指针。

我可以使用哪些工具(最好是开源的)进行此类网站挖掘?我不是网络大师&对我来说,尝试开发它们需要很长时间,也会影响我在研发上花费的时间。

4 个答案:

答案 0 :(得分:1)

另一种选择是使用Yahoo! Pipes。 (demo

您可以使用Feed网址,过滤器等在线直观地构建此类系统...与编程相比,学习时间极短。 [编辑:时态]

答案 1 :(得分:1)

从您的问题中不清楚您是否是程序员,所以我不确定您是否在应用程序或服务意义上的工具之后,或者是一个提供网站挖掘的库更容易。

如果是后者并使用ruby,我可以完全推荐WWW::Mechanize。它提供了一个很好的API,用于编写脚本来搜索网页(通过DOM或文本),跟随链接,并填写表单。我已经多次使用它来组织遍布网站内几个网页的信息。

我相信ruby版本基于较早的library for perl,但我无法保证我没有使用它的perl版本。

答案 2 :(得分:0)

人工交互工具在这种情况下可能很有用(没有开发成本,可能是更一致的结果,以及不断变化的需求)。

夫妻浮现在脑海中:

答案 3 :(得分:0)

所有基于关键字的标签都附有RSS源,因此我首先订阅相关的关键字并搜索数据。这似乎是查找相关概念和其他相关关键字的最简单方法。

相关问题