如何将该数据集拆分为训练,验证和测试集?

时间:2019-12-04 15:26:56

标签: python tensorflow

按照https://www.tensorflow.org/tutorials/load_data/images的说明,我用自己的数据定义了一个数据集,如下所示:

list_ds = tf.data.Dataset.list_files(str(data_dir/'*/*'))

我已经浏览了tf.data.Dataset的方法,但是无法弄清楚如何将此数据集分成tfds.Split之类的三个部分(训练,验证,测试)。

如何将该数据集分为三部分? 我希望训练/验证/测试集的大小分别为list_ds的80%,10%和10%。

1 个答案:

答案 0 :(得分:0)

这可以通过多种方式实现:

1)将火车,测试和验证数据放入三个单独的文件夹中,然后致电 tf.data.Dataset.list_files(...)使用适当的文件路径3次。

2)使用Dataset.skip()Dataset.take()。您将必须根据数据集大小手动计算要跳过/采用的实际条目数。

有关数据集操作的更多信息,请参见TF文档: https://www.tensorflow.org/guide/data

希望这对您有帮助!

相关问题