python-2.7 - 组合来自不同来源的两个结构相似的数据集

我正在处理文本汇总问题，并且尝试使用以下体系结构[Pointer Generator]（https://github.com/abisee/pointer-generator）。与本文使用的CNN /每日邮件数据集相比，我的数据集非常小（225个样本）。我已决定不沿用经过预先训练的模型+进行微调的路线，而是想对CNN / Daily Mail数据和我的数据集从头开始对模型进行“共同训练”，因为这两个结构相同。我的数据集还涉及将大文本压缩成一两个句子，同时引入输入中不存在的新颖单词。

我正在考虑在第一个时期使用10％的数据和90％的CNN / DM数据，然后向下使用100％的数据。但是走这条路-我只想在一个时代处理225个例子。在每个时期中，将我的数据集在“合并的”数据集中的百分比增加10％，我总共会有11个时期。如果这是可行的方法，我会感到困惑。如果一个时期中有225个例子是一个很好的数字，因为作者最初使用相当大的数据集就获得了结果。

此外，如果在连续的时间段内不向模型显示来自CNN / DM的相同数据，可以吗？

组合来自不同来源的两个结构相似的数据集

0 个答案: