使用StormCrawler和Elasticsearch存档旧网站

时间:2018-06-12 12:17:24

标签: web-crawler stormcrawler

当风暴爬虫重新访问之前已经获取的网站时,它会更新elasticsearch索引中的相应文档。即,旧内容被新内容覆盖。

是否有任何风暴抓取功能允许我们保留某些字段的旧版本并使用时间戳对其进行注释?

我们研究了elasticsearch翻转api和摄取管道。摄取管道看起来很有希望在更新操作上修改elasticsearch文档。有没有办法通过stormcrawler配置将管道参数(即?pipeline = xxx)附加到相关的elasticsearch请求?

1 个答案:

答案 0 :(得分:0)

一个选项可以是使用URL +时间戳作为键,并分别存储文档的每个版本。您必须在搜索时进行重复数据删除。这需要对代码进行微小的更改。

我们目前无法通过配置附加params,但它应该是可行的。我从未在ES中使用过流水线,它们不能配置为默认用于特定索引吗?

相关问题