nlp - spacy NER转移学习的“反面例子”？

我想在我自己的标签上训练spacy v2 NER模型，为此我从不同的网页抓取了一些文本。随着爬行，当然有很多文本只是垃圾而且不包含任何信息，但幸运的是在大多数情况下它是完全相同的文本，因为它是从网页中集成的一些新闻源中抓取的。

所以我的问题是，我可以使用已抓取文本的“垃圾部分”作为模型学习的某种反面示例吗？也就是说，是否有意义不对已爬行文本的这些部分进行注释并将其提供给模型，以便模型学会不注释这些示例？否则我将不得不为我的火车/测试装置手动过滤掉这些示例，当模型投入生产并且必须完全自动化时，我显然无法做到这一点