site-mining - 网站挖掘工具

时间：2008-10-03 05:53:53

标签： site-mining

这里提出的许多问题都与我正在进行的研究有关。这些问题和答案分布广泛，并不总是很容易找到，进行手动浏览，有时也会在不相关的主题中发表有见地的答案或评论。

我想自动找到这些相关的Q＆amp; A，基于关键词集，然后使用这些信息作为进一步深入研究的指针。

我可以使用哪些工具（最好是开源的）进行此类网站挖掘？我不是网络大师＆amp;对我来说，尝试开发它们需要很长时间，也会影响我在研发上花费的时间。

答案 0 :(得分：1)

另一种选择是使用Yahoo! Pipes。（demo）

您可以使用Feed网址，过滤器等在线直观地构建此类系统...与编程相比，学习时间极短。 [编辑：时态]

答案 1 :(得分：1)

从您的问题中不清楚您是否是程序员，所以我不确定您是否在应用程序或服务意义上的工具之后，或者是一个提供网站挖掘的库更容易。

如果是后者并使用ruby，我可以完全推荐WWW::Mechanize。它提供了一个很好的API，用于编写脚本来搜索网页（通过DOM或文本），跟随链接，并填写表单。我已经多次使用它来组织遍布网站内几个网页的信息。

我相信ruby版本基于较早的library for perl，但我无法保证我没有使用它的perl版本。

答案 2 :(得分：0)

人工交互工具在这种情况下可能很有用（没有开发成本，可能是更一致的结果，以及不断变化的需求）。

夫妻浮现在脑海中：

答案 3 :(得分：0)

所有基于关键字的标签都附有RSS源，因此我首先订阅相关的关键字并搜索数据。这似乎是查找相关概念和其他相关关键字的最简单方法。