测试/训练/验证大型数据集的拆分

时间:2017-05-30 15:50:23

标签: python-3.x machine-learning training-data

如果这是重新道歉 - 当然很多人都必须面对这个问题,但我没有找到相当讨论这个问题的帖子。我想找到最佳解决方案。

我有一个大型数据集存储为文本文件,其中每一行都是一个数据点。我想将数据用于监督学习问题,我不想将整个数据集保存在内存中。

我可以使用迭代器来读取数据而不将整个文件加载到内存中,但是如何执行随机测试/训练/验证拆分呢?

到目前为止我最好的想法:

  1. 弄清楚文档有多少行

  2. 随机分配线索引以测试/训练/验证

  3. 编写一个只读取这些行的生成器

  4. 对于(1)和(3),我想知道:最优雅的方法是什么? (在python 3中)

0 个答案:

没有答案