帮助数据扩充

时间:2019-07-12 13:29:55

标签: machine-learning data-science

对于机器学习问题,我需要有关数据增强的建议。下面我解释原因。 我必须在文本序列上训练分类器以预测上下文。这些序列基于词汇被标记化。例如,如果我们有句子[Bob生活在公园附近],并且词汇表的构建方式如下[Bob:3,生活:12,附近:4,该:17,公园:11,...],则输出中的数字序列将为[3,12,4,4,17,11]。如果可能的话,我该如何进行数据增强以获取更多训练数据? 我想到了在序列中随机“增加”一些整数,但是如果我更改一个整数,则句子的含义也会发生变化,因为词汇表中的每个整数代表一个具有不同含义的不同单词,这会改变语义和预测。

0 个答案:

没有答案