Stormcrawler / Elasticsearch并跟踪页面的入站链接

时间:2019-03-22 17:00:24

标签: elasticsearch stormcrawler

当我们在Elasticsearch索引中搜索Stormcrawler爬网的结果时,人们不可避免地将结果与Google进行了比较,而搜索的结果则与同主题的google搜索进行了比较。 Google帮助确定各个页面等级的方法之一是跟踪到任何给定页面的入站链接。

在考虑页面上的搜索结果并查看状态索引时,我遇到了url.path字段。 url.path似乎包含通向当前页面的整个路径。

是否有可能在索引中创建一个多值字段,而该字段中仅填充了任何螺栓/函数生成的url.path的最后一个URL。这样,该字段最终将是直接链接到当前文档的所有页面的数组。

利用该信息,您可以潜在地计算值并通过链接到该文档的所有页面来了解当前文档的相对受欢迎程度。

Stormcrawler是否有可能实现这种目标?

1 个答案:

答案 0 :(得分:0)

这可能需要对代码进行一些修改。默认情况下,我们仅保留有关被发现URL的第一个实例的信息,包括指向该URL的路径。可能有多种实现方式,例如,使用自定义螺栓将入链累积到Redis或Graph DB中。

您的基本问题是与Elasticsearch的相关性调整。当然,这取决于搜寻器发送的字段,但不仅限于此。我知道一些StormCrawler用户将其与ES结合使用,成功替代了Google Search Appliance。有关链接的信息可能会有帮助,但是没有链接,您应该可以获得不错的结果。