Question

我们有一个Elasticsearch索引，其中包含要按标题和描述搜索的产品目录。

我们希望它具有以下约束条件：

我们正在搜索标题和描述，以查找出现的情况（标题中的匹配应该是描述的两倍）
我们希望它具有非常轻的模糊搜索结果（但仍然是准确的结果）
与搜索项不匹配的结果不应被滤除，而只能在以后显示（因此，匹配结果应位于顶部，较差的结果应位于底部）
category_id应将产品过滤掉（因此不应显示其他类别的结果）
created_at属性在排序时也应被重视。产品应得分“获得”的“较旧”。（这非常重要，因为他们每天都在失去重要性）

我试图创建一个类似的查询，但是结果确实不准确。有时会找到完全无关的东西。我认为这是因为通配符查询。

我还认为，对于“ created_at”得分，必须有一个更为优雅的解决方案。对吧？

我正在使用Elasticsearch 6.2

这是我当前的代码。我很高兴看到一个优雅的解决方案：

{
  "sort": [
    {
      "_score": {
        "order": "desc"
      }
    }
  ],
  "min_score": 0.3,
  "size": 12,
  "from": 0,
  "query": {
    "bool": {
      "filter": {
        "terms": {
          "category_id": [
            "212",
            "213"
          ]
        }
      },
      "should": [
        {
          "match": {
            "title_completion": {
              "query": "Development",
              "boost": 20
            }
          }
        },
        {
          "wildcard": {
            "title": {
              "value": "*Development*",
              "boost": 1
            }
          }
        },
        {
          "wildcard": {
            "title_completion": {
              "value": "*Development*",
              "boost": 10
            }
          }
        },
        {
          "match": {
            "title": {
              "query": "Development",
              "operator": "and",
              "fuzziness": 1
            }
          }
        },
        {
          "range": {
            "created_at": {
              "gte": 1563264817998,
              "boost": 11
            }
          }
        },
        {
          "range": {
            "created_at": {
              "gte": 1563264040398,
              "boost": 4
            }
          }
        },
        {
          "range": {
            "created_at": {
              "gte": 1563256264398,
              "boost": 1
            }
          }
        }
      ]
    }
  }
}

Answer 1

首先，建立一个返回相关结果的请求通常是一项艰巨的任务。不知道文档的内容就无法完成。就是说，我可以给您一些提示，以满足您的要求，并避免产生不相关的结果。

我们正在搜索标题和描述以查找出现的情况（标题中的匹配应该是描述的两倍）

您可以像在查询中一样使用boost，以使标题匹配与描述相比更加重要。

我们希望它具有非常轻的模糊搜索结果（但仍然是准确的结果）

您应该使用AUTO值作为模糊字段，以根据术语的长度定义不同的模糊度值。例如，默认情况下，少于3个字母的字词（最常见的字词更改会导致不同的字词）将不允许更改。字数超过3个的字词将允许一次更改，超过5个字母的字词将允许2个更改。您可以根据测试更改此行为。

与搜索项不匹配的结果不应被滤除，而只能在以后显示（因此，匹配结果应位于顶部，较差的结果应位于底部）

在should语句中使用bool子句。 should语句中的子句不会过滤文档（除非另有说明）。 should子句中的查询仅用于提高得分。

category_id应将产品过滤掉（因此不应显示其他类别的结果）

在must语句中使用filter的{{1}}子句，以确保所有文档都验证约束。如果您不希望子查询对得分有所帮助（我相信您的情况是这样），请使用bool而不是filter，因为match可以缓存结果。您的查询可以满足此要求。

created_at属性在排序时也应非常高。产品应得分“获得”的“较旧”。（这非常重要，因为他们每天都在失去重要性）

您应该将function score与decay function一起使用。如果您还不清楚衰减功能，则可以跳过文档中的方程式，然后跳到可以自我说明的数字。以下查询是使用高斯衰减函数的示例。

filter

编写查询的提示

避免通配符查询：如果您使用{ "function_score": { // Name of the decay function "gauss": { // Field to use "created_at": { "origin": "now", // "now" is the default so you can omit this field "offset": "1d", // Values with less than 1 day will not be impacted "scale": "10d", // Duration for which the scores will be scaled using a gauss function "decay" : 0.01 // Score for values further than scale } } } }，则效率不高，并且会占用大量内存。如果您希望能够部分搜索词（当用户搜索“ house”时找到“ penthouse”），则应使用ngram tokenizer创建一个子字段，并使用该子字段编写标准的*查询
避免设置最低分数：分数是相对值。低分或高分并不表示该文件是否相关。您可以阅读this article关于该主题的信息。
请谨慎处理match个查询：模糊会产生很大的噪音并使用户感到困惑。通常，我建议增加默认的fuzzy模糊阈值，并接受某些拼写错误的查询不会返回好的结果。通常，与理解为什么他得到完全不相关的结果相比，用户检测到输入中的拼写错误更容易。

查询示例

这只是您需要适应数据的一个示例。

AUTO

Elasticsearch查询良好的标题关键字结果

1 个答案:

我们正在搜索标题和描述以查找出现的情况（标题中的匹配应该是描述的两倍）

我们希望它具有非常轻的模糊搜索结果（但仍然是准确的结果）

与搜索项不匹配的结果不应被滤除，而只能在以后显示（因此，匹配结果应位于顶部，较差的结果应位于底部）

category_id应将产品过滤掉（因此不应显示其他类别的结果）

created_at属性在排序时也应非常高。产品应得分“获得”的“较旧”。（这非常重要，因为他们每天都在失去重要性）

编写查询的提示

查询示例

Elasticsearch查询良好的标题关键字结果

1 个答案:

我们正在搜索标题和描述以查找出现的情况（标题中的匹配应该是描述的两倍）

我们希望它具有非常轻的模糊搜索结果（但仍然是准确的结果）

与搜索项不匹配的结果不应被滤除，而只能在以后显示（因此，匹配结果应位于顶部，较差的结果应位于底部）

category_id应将产品过滤掉（因此不应显示其他类别的结果）

created_at属性在排序时也应非常高。产品应得分“获得”的“较旧”。 （这非常重要，因为他们每天都在失去重要性）

编写查询的提示

查询示例

created_at属性在排序时也应非常高。产品应得分“获得”的“较旧”。（这非常重要，因为他们每天都在失去重要性）