避免从Cassandra中提取的数据重复

时间:2016-02-29 09:04:13

标签: elasticsearch logstash

背景:我从varius日志文件和Cassandra表中获取信息。日志文件很好,但是从表中获取在弹性搜索中给出了重复项,因为我无法获得自sql_last_run以来添加的行。 如何避免重复行?

1 个答案:

答案 0 :(得分:0)

避免这种情况的一种方法是通过计算原始日志行的SHA或MD5来创建自己的文档ID。

这样,即使重复读取,相同的日志行也将始终生成相同的ID,并且您不会再获得任何重复的文档。

另一种解决方案是使用唯一的GUID在表中创建另一列,并将该值用作文档ID。

相关问题