在ElasticSearch中使用标头索引csv

时间:2020-01-09 11:07:25

标签: elasticsearch header

我正在使用安装在Google Cloud帐户中的Elasticsearch 6.6和Kibana 6.4。 这是我的问题:我有一个文件夹,该文件夹中有一些IoT设备提供的csv日志,并带有我创建的Logstash管道,我将这些csv注入到我的Elasticsearch实例中的索引中。 关键是这些csv将被更改,并且将在主体外部带有一些标头,我希望以某种方式也包括此额外信息,并将其与相应csv的主体相关联。因此,在下一步中,当我使用标题中的一些关键字执行搜索时,我希望能够获得与正文相关的结果。

下面,我附上了一个示例文件,以查看我所指的实际标题。 标头是由前7个组成,其中前七个带有“#”:“模式”,“操作”,“ CameraNo”,“ CudaStreamCameraNo”,“ SnapshotCamId”,“ CenterCamId”,“ AgronomistDose”。

a sample log csv from IoT devices

现在我已经将带有标头信息的CSV文件转换为所有记录,但是可能会给内存带来麻烦,因为即将出现的实际csv将具有成千上万个记录,标头会还有一些额外的字段,例如'long_text'类型的'local_path'。

我也见过parent-child模型或nested-object映射,或application-side joinsdata denormalization之类的方法,但是我对弄清楚哪种解决方案最适合感到有些困惑我的情况。 这里的关键问题是:以上4种方法中的任何一种是否都消除了这种数据冗余性? 我怎样才能做到这一点? 谁能帮我吗?

提前谢谢!

0 个答案:

没有答案