machine-learning - 文本分类的数据扩充

关于文本分类的最新数据增强技术是什么？

我在线进行了一些研究，研究如何通过进行一些数据转换来扩展我的训练集，就像在图像分类上一样。我发现了一些有趣的想法，例如：

同义词替换：从不停止单词的句子中随机选择n个单词。将这些单词中的每一个替换为随机选择的一个同义词。
随机插入：在不是停用词的句子中找到随机词的随机同义词。将该同义词插入句子中的随机位置。这样做n次。
随机交换：随机选择句子中的两个单词并交换其位置。这样做n次。
随机删除：以概率p随机删除句子中的每个单词。

但是关于使用诸如word2vec之类的预训练单词矢量表示模型没有什么。有原因吗？

使用word2vec进行数据扩充可能会帮助模型基于外部信息获取更多数据。例如，在专门针对外部在线评论训练的预训练向量空间中，用更接近的标记随机替换句子中的有毒评论标记。

这是一个好方法还是我错过了这项技术的一些重要缺点？

您使用word2vec嵌入的想法通常会有所帮助。但是，这是上下文无关的嵌入。要更进一步，截至今天（2019年2月）的最新技术（SOTA）将使用在大型文本集上训练的语言模型，并使用自己的训练数据对自己的分类器进行微调。

两个SOTA模型是：

GPT-2 https://github.com/openai/gpt-2
BERT https://github.com/google-research/bert

您提到的这些数据扩充方法也可能会有所帮助（取决于您的领域和所拥有的培训示例的数量）。其中一些实际上是在语言模型训练中使用的（例如，在BERT中，有一项任务是在训练前随机掩盖句子中的单词）。如果您是我，那么我将首先采用预先训练的模型，并使用当前的训练数据微调您自己的分类器。以此为基准，您可以尝试使用每种您喜欢的数据增强方法，看看它们是否真的有帮助。

文本分类的数据扩充

1 个答案: