组合来自不同来源的两个结构相似的数据集

时间:2019-10-21 00:56:25

标签: python-2.7 tensorflow nlp summarization

我正在处理文本汇总问题,并且尝试使用以下体系结构[Pointer Generator](https://github.com/abisee/pointer-generator)。与本文使用的CNN /每日邮件数据集相比,我的数据集非常小(225个样本)。我已决定不沿用经过预先训练的模型+进行微调的路线,而是想对CNN / Daily Mail数据和我的数据集从头开始对模型进行“共同训练”,因为这两个结构相同。我的数据集还涉及将大文本压缩成一两个句子,同时引入输入中不存在的新颖单词。

我正在考虑在第一个时期使用10%的数据和90%的CNN / DM数据,然后向下使用100%的数据。但是走这条路-我只想在一个时代处理225个例子。在每个时期中,将我的数据集在“合并的”数据集中的百分比增加10%,我总共会有11个时期。如果这是可行的方法,我会感到困惑。如果一个时期中有225个例子是一个很好的数字,因为作者最初使用相当大的数据集就获得了结果。

此外,如果在连续的时间段内不向模型显示来自CNN / DM的相同数据,可以吗?

0 个答案:

没有答案
相关问题