嵌套内部命中的弹性搜索聚合

时间:2017-09-04 22:23:47

标签: elasticsearch nested aggregation

我在Elasticsearch中获得了大量数据。我的douments有一个名为“records”的嵌套字段,其中包含具有多个字段的对象列表。

我希望能够从记录列表中查询特定对象,因此我在查询中使用inner_hits字段,但它没有帮助,因为聚合使用大小0,因此不会返回任何结果。

我没有成功只对inner_hits进行聚合工作,因为聚合会返回记录中所有对象的结果,无论查询是什么。

这是我正在使用的查询: (每个文档都有first_timestamp和last_timestamp字段,记录列表中的每个对象都有一个时间戳字段)

curl -XPOST 'localhost:9200/_msearch?pretty' -H 'Content-Type: application/json' -d'    
{
    "index":[
        "my_index"
    ],
    "search_type":"count",
    "ignore_unavailable":true
}
{
    "size":0,
    "query":{
        "filtered":{
             "query":{
                 "nested":{
                     "path":"records",
                     "query":{
                         "term":{
                             "records.data.field1":"value1"
                         }
                     },
                     "inner_hits":{}
                 }
             },
             "filter":{
                 "bool":{
                     "must":[
                     {
                         "range":{
                             "first_timestamp":{
                                 "gte":1504548296273,
                                 "lte":1504549196273,
                                 "format":"epoch_millis"
                             }
                         }
                     }
                     ],
                 }
             }
         }
     },
     "aggs":{
         "nested_2":{
             "nested":{
                 "path":"records"
             },
             "aggs":{
                 "2":{
                     "date_histogram":{
                          "field":"records.timestamp",
                          "interval":"1s",
                          "min_doc_count":1,
                          "extended_bounds":{
                              "min":1504548296273,
                              "max":1504549196273
                          }
                     }
                }
           }
      }
   }
}'

2 个答案:

答案 0 :(得分:9)

您的查询非常复杂。 简而言之,这是您要求的查询:

{
  "size": 0,
  "aggregations": {
    "nested_A": {
      "nested": {
        "path": "records"
      },
      "aggregations": {
        "bool_aggregation_A": {
          "filter": {
            "bool": {
              "must": [
                {
                  "term": {
                    "records.data.field1": "value1"
                  }    
                }
              ]
            }
          },
          "aggregations": {
            "reverse_aggregation": {
              "reverse_nested": {},
              "aggregations": {
                "bool_aggregation_B": {
                  "filter": {
                    "bool": {
                      "must": [
                        {
                          "range": {
                            "first_timestamp": {
                              "gte": 1504548296273,
                              "lte": 1504549196273,
                              "format": "epoch_millis"
                            }
                          }
                        }
                      ]
                    }
                  },
                  "aggregations": {
                    "nested_B": {
                      "nested": {
                        "path": "records"
                      },
                      "aggregations": {
                        "my_histogram": {
                          "date_histogram": {
                            "field": "records.timestamp",
                            "interval": "1s",
                            "min_doc_count": 1,
                            "extended_bounds": {
                              "min": 1504548296273,
                              "max": 1504549196273
                            }
                          }
                        }
                      }
                    }
                  }
                }
              }
            }
          }
        }
      }
    }
  }
}

现在,让我通过汇总解释每一步'名称:

  • 尺寸:0 - >我们对点击不感兴趣,只对汇总感兴趣
  • nested_A - > data.field1正在记录中,因此我们将范围转移到记录
  • bool_aggregation_A - >按data.field1过滤:value1
  • reverse_aggregation - > first_timestamp不在嵌套文档中,我们需要从记录范围
  • bool_aggregation_B - >按first_timestamp范围
  • 过滤
  • nested_B - >现在,我们再次将范围纳入timestamp字段(位于记录下)
  • 的记录中
  • my_histogram - >最后,按timestamp字段
  • 汇总日期直方图

答案 1 :(得分:0)

elasticsearch不支持Inner_hits聚合。其背后的原因是,inner_hits是一项非常昂贵的操作,对inner_hits进行聚合就像是操作复杂性的指数级增长。 Here is the github link of the issue

如果要对inner_hits进行汇总,则可以使用以下方法:

  1. 进行灵活的查询,在该查询中,您只能从弹性中获得所需的匹配并进行汇总。重复多次以获取所有匹配并同时进行汇总。这种方法可能会导致您进行多个搜索查询,这是不可取的。
  2. 您可以通过编写智能聚合解析器来使您的应用程序层处理聚合逻辑,并根据Elasticsearch的响应运行这些解析器。这种方法要好一些,但是要根据不断变化的需求维护解析器。

我个人建议您在elasticsearch中更改数据映射样式,以便能够对其进行聚合。