弹性搜索中的映射+查询

时间:2013-08-13 12:43:58

标签: json rest lucene elasticsearch

上下文

基本上我拥有的是一个大型名称数据集,分为pty_firstname和pty_surname。我将这些数据从Informix数据库索引到ElasticSearch,这一切都运行正常。然而,我未能实现的是这个表结构的逻辑映射,以及从映射中受益的查询。我似乎遇到问题的地方是名称实际上被分成两列,对我来说,查询有点难以返回声音结果集。

如果有人可以给我一些帮助,为了让我返回一个结果集,其中最接近但不完全匹配在顶部,并且当我们在结果集中前进时,结果变得越不相似。

映射

我试图在这里获得我的映射和查询的一些灵感,但有一些改动,但我似乎无法得到我需要/想要的结果 - http://goo.gl/hm9ISL

{
   "mappings":{
      "user":{
         "properties":{
            "pty_forename":{
               "type":"multi_field",
               "fields":{
                  "name":{
                     "type":"string",
                     "index":"analyzed"
                  },
                  "exact":{
                     "type":"string",
                     "index":"not_analyzed"
                  }
               }
            },
            "pty_surname":{
               "type":"multi_field",
               "fields":{
                  "name":{
                     "type":"string",
                     "index":"analyzed"
                  },
                  "exact":{
                     "type":"string",
                     "index":"not_analyzed"
                  }
               }
            },
            "pty_minute_ref":{
               "type":"integer",
               "index":"not_analyzed"
            },
            "pty_deed_code":{
               "type":"string",
               "index":"not_analyzed"
            },
            "pty_name_prefix":{
               "type":"string",
               "index":"not_analyzed"
            },
            "pty_name_suffix":{
               "type":"string",
               "index":"not_analyzed"
            },
            "pty_address":{
               "type":"string",
               "index":"not_analyzed"
            },
            "pty_desig_suffix":{
               "type":"string",
               "index":"not_analyzed"
            },
            "pty_mc_ind":{
               "type":"string",
               "index":"not_analyzed"
            },
            "pty_of_ind":{
               "type":"string",
               "index":"not_analyzed"
            },
            "pty_or_ind":{
               "type":"integer",
               "index":"not_analyzed"
            },
            "pty_date_entered":{
               "type":"basic_date",
               "index":"not_analyzed"
            },
            "pty_data":{
               "type":"string",
               "index":"not_analyzed"
            },
            "pty_type":{
               "type":"string",
               "index":"not_analyzed"
            }
         }
      }
   }
}

查询

{
   "query":{
      "bool":{
         "must":[
            {
               "multi_match":{
                  "query":"Nathan Smith",
                  "fields":[
                     "pty_forename",
                     "pty_surname"
                  ]
               }
            }
         ],
         "should":[
            {
               "term":{
                  "pty_forename.exact":{
                     "value":"Nathan Smith",
                     "boost":15
                  }
               }
            },
            {
               "prefix":{
                  "pty_forename.exact":{
                     "value":"Nathan Smith",
                     "boost":10
                  }
               }
            },
            {
               "match_phrase":{
                  "pty_forename":{
                     "query":"Nathan Smith",
                     "slop":0,
                     "boost":5
                  }
               }
            }
         ]
      }
   }
}

结论

我回来的结果集不是在两个字段中查询,即pty_forename和pty_surname,而是返回姓氏为Nathan等的人。非常感谢任何帮助。

更新 - 链接到Gist

Link to Gist

2 个答案:

答案 0 :(得分:1)

这是你想要的东西吗?

"bool" : {
    "should" : {
        "match" : { "pty_forename" : "nathan" }
    },
    "should" : {
        "match" : { "pty_surname" : "smith" }
    }
}

也就是说,pty_forename =" nathan"或pty_surname ="史密斯" (两者都得分较高)。

答案 1 :(得分:1)

  1. 在您链接的StackOverflow示例中,在the elasticsearch Multifield documentation中,在“访问字段”标题下,多字段类型中“字段”下列出的第一个字段应与字段本身。因此,在SO和文档示例中,“name”是“fields”下给出的第一个名称,因为“name”是multi_type字段的名称。在您的示例中,您的映射应该是

        "pty_forename":{
           "type":"multi_field",
           "fields":{
              "pty_forename":{
                 "type":"string",
                 "index":"analyzed"
              },
              "exact":{
                 "type":"string",
                 "index":"not_analyzed"
              }
           }
        },
        "pty_surname":{
           "type":"multi_field",
           "fields":{
              "pty_surname":{
                 "type":"string",
                 "index":"analyzed"
              },
              "exact":{
                 "type":"string",
                 "index":"not_analyzed"
              }
           }
        },
    

    现在你的映射是你的“bool”“必须”查询可能没有做任何事情,因为你的多字段“字段”当前都没有被命名为“pty_forename”或“pty_surname”。我说可能因为我不知道Elasticsearch是否仍在其名称下保存multi_field,即使您没有在“字段”部分使用该名称。

  2. 您的“bool”“应该”查询需要搜索“pty_forename”和“pty_surname”,如 femtoRgon建议,也许是这样的:

    
          "multi_match" : {
                "fields" : ["pty_forename.exact", "pty_surname.exact"],
                "value" : "Nathan Smith",
                "type" : "term"
          },
         "multi_match" : {
                "fields" : ["pty_forename.exact", "pty_surname.exact"],
                "value" : "Nathan Smith",
                "type" : "prefix"
          },
          "multi_match" : {
                "fields" : ["pty_forename.exact", "pty_surname.exact"],
                "query" : "Nathan Smith",
                "slop":0,
                "boost":5,
                "type" : "match_phrase"
          }
     

  3. 我在这里看了javanna的答案Elasticsearch phrase prefix query on multiple fields