Question

我想创建一个小的MongoDB搜索查询，我想根据完全匹配对结果集进行排序，然后是否。比赛

例如。如果我有以下标签

Physics
11th-Physics
JEE-IIT-Physics
Physics-Physics

然后，如果我搜索＆＃34;物理＆＃34;它应排序为

Physics
Physics-Physics
11th-Physics
JEE-IIT-Physics

Answer 1

寻找那种＆＃34;得分＆＃34;你在这里谈论的是一个不完美的解决方案＆＃34;的练习。在这种情况下，最合适的＆＃34;这里以＆＃34;文本搜索＆＃34;和＆＃34;不完美＆＃34;开头。是在使用MongoDB的文本搜索功能时首先要考虑的术语。

MongoDB是＆＃34;不是＆＃34;专门的＆＃34;文本搜索＆＃34;产品，也不是（像大多数数据库一样）试图成为一体。完整功能＆＃34;文本搜索＆＃34;专门用于专业产品的专业产品。所以也许不是最合适的，但＆＃34;文本搜索＆＃34;对于那些能够忍受限制并且不想实现其他引擎的人来说，它是一个选项。或者还是！至少。

话虽如此，让我们看一下你可以对所提供的数据样本做些什么。首先在集合中设置一些数据：

db.junk.insert([
    { "data": "Physics" },
    { "data": "11th-Physics" },
    { "data": "JEE-IIT-Physics" },
    { "data": "Physics-Physics" },
    { "data": "Something Unrelated" }
])

然后当然要＃34;启用＆＃34;文本搜索功能，然后您需要使用＆＃34;文本＆＃34;索引文档中的至少一个字段。索引类型：

db.junk.createIndex({ "data": "text" })

现在已经准备好了＃34;让我们来看看第一个基本查询：

db.junk.find(
   { "$text": { "$search": "\"Physics\"" } },
   { "score": { "$meta": "textScore" } }
).sort({ "score": { "$meta": "textScore" } })

这将得到这样的结果：

{
    "_id" : ObjectId("55af83b964876554be823f33"),
    "data" : "Physics-Physics",
    "score" : 1.5
}
{
    "_id" : ObjectId("55af83b964876554be823f30"),
    "data" : "Physics",
    "score" : 1
}
{
    "_id" : ObjectId("55af83b964876554be823f31"),
    "data" : "11th-Physics",
    "score" : 0.75
}
{
    "_id" : ObjectId("55af83b964876554be823f32"),
    "data" : "JEE-IIT-Physics",
    "score" : 0.6666666666666666
}

这就是＆＃34;关闭＆＃34;达到你想要的结果，但当然没有＆＃34;完全匹配＆＃34;零件。此外，文本搜索功能与$text运算符一起使用的逻辑意味着＆＃34;物理 - 物理＆＃34;是这里的首选匹配。

这是因为引擎无法识别＆＃34;非单词＆＃34;例如＆＃34;连字符＆＃34;之间。对它来说，＆＃34;物理＆＃34;在文档的索引内容中多次出现，因此得分较高。

现在，你的其余逻辑取决于＆＃34;完全匹配＆＃34;的应用。你的意思是什么如果您正在寻找＆＃34;物理学＆＃34;在字符串中＆＃34;不是＆＃34;用连字符包围＆＃34;连字符＆＃34;或其他字符，然后以下不适合。但你可以匹配一个字段＆＃34; value＆＃34;那就是＆＃34;确切地说＆＃34;只是＆＃34;物理＆＃34;：

db.junk.aggregate([
    { "$match": { 
        "$text": { "$search": "Physics" } 
    }},
    { "$project": {
        "data": 1,
        "score": {
           "$add": [
               { "$meta": "textScore" },
               { "$cond": [
                   { "$eq": [ "$data", "Physics" ] },
                   10,
                   0
               ]}
           ]
        }
    }},
    { "$sort": { "score": -1 } }
])

这会给你一个结果，看看＆＃34; textScore＆＃34;由引擎生成，然后通过逻辑测试应用一些数学。在这种情况下，＆＃34;数据＆＃34;完全等于＆＃34;物理学＆＃34;那么我们＆＃34;体重＆＃34;使用$add的其他因素得分：

{
    "_id": ObjectId("55af83b964876554be823f30"),
    "data" : "Physics",
    "score" : 11
}
{
    "_id" : ObjectId("55af83b964876554be823f33"),
    "data" : "Physics-Physics",
    "score" : 1.5
}
{
    "_id" : ObjectId("55af83b964876554be823f31"),
    "data" : "11th-Physics",
    "score" : 0.75
}
{
    "_id" : ObjectId("55af83b964876554be823f32"),
    "data" : "JEE-IIT-Physics",
    "score" : 0.6666666666666666
}

这是aggregation framework可以为您做的事情，允许通过附加条件操纵返回的数据。最终结果传递到$sort阶段（注意它按降序颠倒），以允许新值为排序键。

但聚合框架实际上只能处理＆＃34;完全匹配＆＃34;在字符串上这样。目前没有工具来处理正则表达式匹配或字符串中的索引位置，这些位置返回有意义的投影值。甚至不是逻辑匹配。并且$regex操作仅用于＆＃34;过滤＆＃34;在查询中，所以不在这里使用。

所以，如果你正在寻找一个＆＃34;短语＆＃34;多数民众赞成比一个＆＃34;字符串等于＆＃34;完全匹配，然后另一个选项是使用mapReduce。

这是另一个＆＃34;不完美＆＃34;方法作为mapReduce命令的限制意味着＆＃34; textScore＆＃34;来自引擎的这种查询是完全消失了＃34;虽然实际文件将被正确选择，但是继承＆＃34;排名数据＆＃34;引擎无法使用。这是MongoDB＆＃34;投射＆＃34;的一个副产品。＆＃34;得分＆＃34;首先进入文档，＆＃34;投影＆＃34;不是mapReduce可用的功能。

但是你可以和＃34;一起玩。使用JavaScript的字符串，如我的＆＃34;不完美＆＃34;样品：

db.junk.mapReduce(
    function() {
        var _id = this._id,
            score = 0;

        delete this._id;

        score += this.data.indexOf(search);
        score += this.data.lastIndexOf(search);

        emit({ "score": score, "id": _id }, this);
    },
    function() {},
    { 
        "out": { "inline": 1 },
        "query": { "$text": { "$search": "Physics" } },
        "scope": { "search": "Physics" }
    }
)

结果如下：

{
    "_id" : {
        "score" : 0,
        "id" : ObjectId("55af83b964876554be823f30")
    },
    "value" : {
        "data" : "Physics"
    }
},
{
    "_id" : {
        "score" : 8,
        "id" : ObjectId("55af83b964876554be823f33")
    },
    "value" : {
        "data" : "Physics-Physics"
    }
},
{
    "_id" : {
        "score" : 10,
        "id" : ObjectId("55af83b964876554be823f31")
    },
    "value" : {
        "data" : "11th-Physics"
    }
},
{
    "_id" : {
        "score" : 16,
        "id" : ObjectId("55af83b964876554be823f32")
    },
    "value" : {
        "data" : "JEE-IIT-Physics"
   }
}

我自己的＆＃34;愚蠢的小算法＆＃34;这基本上是采取＆＃34;第一＆＃34;和＆＃34;最后＆＃34;此处匹配字符串的索引位置并将它们相加以产生分数。它可能不是你真正想要的，但重点是如果你可以用JavaScript编写你的逻辑代码，那么你可以把它扔到引擎上以产生所需的＆＃34;排名＆＃34;。

唯一真正的＆＃34;技巧＆＃34;这里要记住的是＆＃34;得分＆＃34; 必须成为＆＃34;之前的＆＃34;分组的一部分＆＃34; key＆＃34;在这里，如果包含原始文档_id值，则必须重命名复合关键部分，否则_id将优先于顺序。

这只是mapReduce的一部分，其中＆＃34;优化＆＃34;所有输出＆＃34;键＆＃34;值以＆＃34;升序排序＆＃34;在由减速机处理之前。这当然没有什么，因为我们不是＆＃34;聚合＆＃34;，而只是使用JavaScript运行器和文件整形mapReduce。

总的来说，这些是可用的选项。它们都不是完美的，但你可以和它们一起生活，甚至只是接受＆＃34;默认引擎结果。

如果你想要更多，那么请看外部＆＃34;专用＆＃34;文本搜索产品，这将更适合。

旁注：此处$text搜索优先于$regex，因为他们可以使用索引。 A＆＃34;非锚定＆＃34;正则表达式（没有插入符^）不能与MongoDB最佳地使用索引。因此，$text搜索通常会成为查找＆＃34;单词＆＃34;的更好基础。在短语中。

MongoDB搜索和排序，具有匹配数和完全匹配

1 个答案: