Question

嗨我在mongodb（复制）中有大约500万个文件，每个文件有43个字段。如何删除重复的文档。我试过

db.testkdd.ensureIndex({
        duration  : 1 , protocol_type  : 1 , service  : 1 ,
        flag  : 1 , src_bytes  : 1 , dst_bytes  : 1 ,
        land  : 1 , wrong_fragment  : 1 , urgent  : 1 ,
        hot  : 1 , num_failed_logins  : 1 , logged_in  : 1 ,
        num_compromised  : 1 , root_shell  : 1 , su_attempted  : 1 ,
        num_root  : 1 , num_file_creations  : 1 , num_shells  : 1 ,
        num_access_files  : 1 , num_outbound_cmds  : 1 , is_host_login  : 1 ,
        is_guest_login  : 1 , count  : 1 ,  srv_count  : 1 ,
        serror_rate  : 1 , srv_serror_rate  : 1 , rerror_rate  : 1 ,
        srv_rerror_rate  : 1 , same_srv_rate  : 1 , diff_srv_rate  : 1 ,
        srv_diff_host_rate  : 1 , dst_host_count  : 1 , dst_host_srv_count  : 1 ,
        dst_host_same_srv_rate  : 1 , dst_host_diff_srv_rate  : 1 ,
        dst_host_same_src_port_rate  : 1 ,  dst_host_srv_diff_host_rate  : 1 ,
        dst_host_serror_rate  : 1 , dst_host_srv_serror_rate  : 1 ,
        dst_host_rerror_rate  : 1 , dst_host_srv_rerror_rate  : 1 , lable  : 1 
    },
    {unique: true, dropDups: true}
)

运行此代码我收到错误“errmsg”：“从索引生成的命名空间名称

{
    "ok" : 0,
    "errmsg" : "namespace name generated from index name \"project.testkdd.$duration_1_protocol_type_1_service_1_flag_1_src_bytes_1_dst_bytes_1_land_1_wrong_fragment_1_urgent_1_hot_1_num_failed_logins_1_logged_in_1_num_compromised_1_root_shell_1_su_attempted_1_num_root_1_num_file_creations_1_num_shells_1_num_access_files_1_num_outbound_cmds_1_is_host_login_1_is_guest_login_1_count_1_srv_count_1_serror_rate_1_srv_serror_rate_1_rerror_rate_1_srv_rerror_rate_1_same_srv_rate_1_diff_srv_rate_1_srv_diff_host_rate_1_dst_host_count_1_dst_host_srv_count_1_dst_host_same_srv_rate_1_dst_host_diff_srv_rate_1_dst_host_same_src_port_rate_1_dst_host_srv_diff_host_rate_1_dst_host_serror_rate_1_dst_host_srv_serror_rate_1_dst_host_rerror_rate_1_dst_host_srv_rerror_rate_1_lable_1\" is too long (127 byte max)",
    "code" : 67
}

如何解决问题？

Answer 1

用于索引创建的＆＃34; dropDups＆＃34; 语法已被弃用＆＃34;从MongoDB 2.6和removed in MongoDB 3.0开始。在大多数情况下，使用它作为＆＃34;删除＆＃34;并不是一个好主意。是任意的，任何＆＃34;重复＆＃34;可以删除。这意味着什么被删除＆＃34;可能不是你真正想要删除的东西。

无论如何，你正在进入＆＃34;索引长度＆＃34;错误，因为这里索引键的值会更长，这是允许的。一般来说，你不是＆＃34;意思是＆＃34;在任何正常的应用程序中索引43个字段。

如果你想删除＆＃34;重复＆＃34;从一个集合中，你最好的办法是运行一个聚合查询，以确定哪些文件包含＆＃34;复制＆＃34;数据，然后循环通过该列表删除＆＃34;除了一个＆＃34;已经＆＃34;独特＆＃34;目标集合中的_id值。这可以通过"Bulk"操作完成，以实现最高效率。

注意：我觉得很难相信你的文件实际上包含43＆＃34; unique＆＃34;领域。很有可能＆＃34;您只需要识别那些使文档成为唯一的字段＆＃34; 然后按照下面列出的流程进行操作：

var bulk = db.testkdd.initializeOrderedBulkOp(),
    count = 0;

// List "all" fields that make a document "unique" in the `_id`
// I am only listing some for example purposes to follow
db.testkdd.aggregate([
    { "$group": {
        "_id": {
           "duration" : "$duration",
          "protocol_type": "$protocol_type", 
          "service": "$service",
          "flag": "$flag"
        },
        "ids": { "$push": "$_id" },
        "count": { "$sum": 1 }
    }},
    { "$match": { "count": { "$gt": 1 } } }
],{ "allowDiskUse": true}).forEach(function(doc) {
    doc.ids.shift();     // remove first match
    bulk.find({ "_id": { "$in": doc.ids } }).remove();  // removes all $in list
    count++;

    // Execute 1 in 1000 and re-init
    if ( count % 1000 == 0 ) {
       bulk.execute();
       bulk = db.testkdd.initializeOrderedBulkOp();
    }
});

if ( count % 1000 != 0 ) 
    bulk.execute();

如果你有一个MongoDB版本＆＃34;更低＆＃34;如果不是2.6并且没有批量操作，那么您也可以尝试使用循环内的标准.remove()。还注意到.aggregate()不会在此返回游标，循环必须更改为：

db.testkdd.aggregate([
   // pipeline as above
]).result.forEach(function(doc) {
    doc.ids.shift();  
    db.testkdd.remove({ "_id": { "$in": doc.ids } });
});

但请务必仔细查看您的文件，并且只包括＆＃34;只是＆＃34; ＆＃34;独特＆＃34;您希望成为分组_id的一部分的字段。否则你最终什么都不删除，因为那里没有重复。

从MongoDB中删除重复项

1 个答案: