apache-spark - 深入学习海量数据集

当你提到“将大量数据集装入内存”时，我知道你正在尝试立即将所有数据加载到内存并开始训练。因此，我基于这个假设给出答复。

一般的心态是，如果您无法将数据与资源相匹配，请将数据划分为较小的块并以迭代方式进行训练。

1-逐个加载数据，而不是一次性加载所有数据。如果您创建执行工作流程为“加载数据 - ＆gt;培训 - ＆gt;发布数据（这可以由垃圾收集器自动完成） - ＆gt;重新启动”，您可以了解培训单个数据需要多少资源。

2-使用迷你批次。一旦从＃1获得资源信息，您就可以轻松计算估计小批量大小。例如，如果训练单个数据消耗1.5 GB的RAM，并且您的GPU有8 GB的RAM，理论上您可以同时训练大小为5的小批量。

3-如果资源不足以培训1个单一批次，在这种情况下，您可以考虑增加PC容量或降低模型容量/层/功能。或者，您可以选择云计算解决方案。