machine-learning - 用标记的+预测数据重新训练生产模型？

比方说，我目前正在使用两个不同的类对文本进行分类。我现在拥有的标签数据是我手动分类为X或Y的数据。该数据集是atm类型的大数据集，大小为7000（3500 X，3500 Y）。

问题是我有2000个，当前未标记，但它们属于X或Y（没有其他类）。

根据我使用的模型，我模型的准确度，召回率和f1-得分约为95-98。

目标不再是需要对X或Y进行手动分类，而只需让ML模型为我完成（当然，有时它会出错，而且还可以）。

问题是，我以后再训练模型时，可以将模型的预测与人工分类的训练和验证数据一起使用吗？

我知道这是一个很难回答的问题，因为您没有所有信息，等等。但是我想我并不是唯一一个想要用ML模型替换当前手动完成的事情的人。

我认为这绝对不是一个好主意。这样，您基本上只会提高模型对预测正确的“信心”。如果添加的文档与培训集中的文档有很大不同该怎么办？我宁愿建议两件事之一（尽管您的模型似乎已经具有很好的性能）：