如何提高Mongo中更新操作的性能?

时间:2016-03-21 11:41:55

标签: c# mongodb performance

foreach (var doc in await records.Find(filter).ToListAsync())
{
    var query = Builders<JobInfoRecord>.Filter.Eq("JobTypeValue", doc.JobTypeValue);
    var updatedJobInfo = Regex.Replace(doc.SerializedBackgroundJobInfo, pattern, "<$1></$1>");
    var update = Builders<JobInfoRecord>.Update.Set("SerializedBackgroundJobInfo", updatedJobInfo);

    records.UpdateOneAsync(query, update).Wait();
}

这是更新文档的最佳方式吗(我将名称中包含password的xml字符串中的标记值更改为空标记:<adminPassword></adminPassword>demo )?我使用的是Mongo驱动程序2.0.2

我有一个包含500 000个文档的集合,其中我每分钟(希望)大约会执行更新。 3000个文件。

如何提高update操作的效果?

1 个答案:

答案 0 :(得分:4)

以您的方式进行更新时,您需要检索文档内容以进行检查并进行此类修改。 MongoDB没有以你想要的方式对现有值起作用的原子操作,所以当然需要迭代。

在您的两个版本的语句之间匹配正则表达式的“查询”部分没有真正的区别。无论如何,在发送到服务器之前,内容都会转换为BSON,因此如果您使用标准表达式构建器或直接BSON文档,则无关紧要。

但是可以改进性能。

使用批量操作更新

如上所述,批量操作是你应该更新这种列表迭代的方式,你也“应该”使用游标而不是将所有结果转换为列表,因为它将节省内存。

避免使用所有特定类型的声明,只表示为BsonDocument(可能会在编组时保存,但不需要),那么基本的示例过程将是:

var pattern = @"(?si)<([^\s<]*workUnit[^\s<]*)>.*?</\1>";
var filter = Builders<JobInfoRecord>.Filter.Regex(x => x.SerializedBackgroundJobInfo,
                                              new BsonRegularExpression(pattern, "i"));


var ops = new List<WriteModel<BsonDocument>>();
var writeOptions = new BulkWriteOptions() { IsOrdered = false };

using ( var cursor = await records.FindAsync<BsonDocument>(filter))
{
    while ( await cursor.MoveNextAsync())
    {
        foreach( var doc in cursor.Current )
        {
            // Replace inspected value
            var updatedJobInfo = Regex.Replace(doc.SerializedBackgroundJobInfo, pattern, "<$1></$1>");

            // Add WriteModel to list
            ops.Add(
                new UpdateOneModel<BsonDocument>(
                    Builders<BsonDocument>.Filter.Eq("JobTypeValue", doc.JobTypeValue),
                    Builders<BsonDocument>.Update.Set("SerializedBackgroundJobInfo", updatedJobInfo)
                )
            );

            // Execute once in every 1000 and clear list
            if (ops.Count == 1000)
            {
                BulkWriteResult<BsonDocument> result = await records.BulkWriteAsync(ops,writeOptions);
                ops = new List<WriteModel<BsonDocument>>();
            }
        }
    }

    // Clear any remaining
    if (ops.Count > 0 )
    {
        BulkWriteResult<BsonDocument> result = await records.BulkWriteAsync(ops,writeOptions);
    }

}

因此,不是为从查询中检索到的每个文档向数据库发出请求,而是创建ListWriteModel操作。

一旦此列表增长到合理值(在此示例中为1000),您就可以在单个请求中为服务器提交写入操作,并对所有批处理操作进行响应。我们在这里使用BulkWriteAsync

如果您愿意,可以创建大小超过1000的批次,但这通常是一个合理的数字来处理。唯一真正的硬限制是BSON限制为16MB,由于所有请求仍然是BSON文档,因此仍然适用。无论如何,它需要大量的请求才能接近16MB,但是当实际到达服务器时,还需要考虑如何处理请求,as documented

  

“每组操作最多可以有1000个操作。如果一个组超过此限制,MongoDB会将该组划分为1000个或更少的较小组。例如,如果批量操作列表包含2000个插入在操作中,MongoDB创建了两个组,每组有1000个操作。“

因此,通过将请求大小保持在与服务器处理方式相同的级别,您还可以从yield中获益,其中“多个批次”实际上可以与服务器并行连接,而不是让服务器进行拆分和排队。

返回的结果为BulkWriteResult,其中包含有关发送的一批操作中“匹配”和“修改”等数量的信息。

当然,由于操作是“批处理”,因此在循环迭代结束时检查是否有更多的“批处理”操作存在于列表中,然后当然以相同的方式提交。

同样注意IsOrdered = falseBulkWriteOptions意味着批量操作实际上并未按顺序执行,这意味着服务器实际上可以“并行”运行tak。这可以在不需要承诺顺序的情况下实现“巨大”的速度提升。默认是提交“有序”和连续。

这不是设置此选项所必需的,但如果您的订单不重要(在这种情况下不应该这样,因为此处没有其他操作请求取决于文档的上述修改),那么您获得的改进是值得的

这就是“减少”对服务器的实际请求数量。发送更新和等待响应需要时间,并且在大型操作中是非常昂贵的练习。通过在一个请求中应用多个操作,这就是批量操作要处理的内容。

减少开销是“巨大的”性能提升。这就是你使用它的原因。

相关问题