如何在elasticsearch中对多值字段进行桶聚合

时间:2016-01-05 19:13:39

标签: elasticsearch pyelasticsearch elasticsearch-dsl

假设我的elasticsearch索引中的每个文档都是一篇博文,其中只包含两个字段,标题和标签。 标题字段只是一个字符串,而标记是一个多值字段。

如果我有三个这样的文件:

title      tags
"blog1"    [A,B,C]
"blog2"    [A,B]
"blog3"    [B,C]

我想了解所有可能标签的唯一值,但是如何获得如下结果,其中包含一个桶中的三个项目。或者有任何有效的替代方案吗?

{A: ["blog1", "blog2"]}
{B: ["blog1", "blog2", "blog3"]}
{C: ["blog1", "blog3"]}

如果有人可以在elasticsearch python API中提供答案,那就太好了。

1 个答案:

答案 0 :(得分:2)

您只需在terms字段和另一个嵌套tags子聚合上使用top_hits聚合即可。通过以下查询,您将获得预期的结果。

{
    "size": 0,
    "aggs": {
        "tags": {
            "terms": { 
                "field": "tags" 
            },
            "aggs": {
                "top_titles": {
                    "top_hits": {
                        "_source": ["title"]
                    }
                }
            }
        }
    }
}

在Python中使用它非常简单:

from elasticsearch import Elasticsearch
client = Elasticsearch()

response = client.search(
    index="my-index",
    body= {
    "size": 0,
    "aggs": {
        "tags": {
            "terms": { 
                "field": "tags" 
            },
            "aggs": {
                "top_titles": {
                    "top_hits": {
                        "_source": ["title"]
                    }
                }
            }
        }
    }
}
)

# parse the tags
for tag in response['aggregations']['tags']['buckets']:
    tag = tag['key'] # => A, B, C
    # parse the titles for the tag
    for hit in tag['top_titles']['hits']['hits']:
       title = hit['_source']['title'] # => blog1, blog2, ...