kubernetes - 如何在Kubeflow中使用大量数据？

时间：2019-04-12 14:12:10

标签： kubernetes google-cloud-platform kubeflow

我在GCS中存储了1TB的图像（数据分为3类）。我想在Kubeflow中针对此数据训练自定义Tensor Flow模型。当前，我具有用于训练和持久化模型的管道组件，但是我不知道如何正确地将这些数据输入到分类器中。

在我看来，每当我运行（可能失败）时，从GCS（gsutil cp等）下载此数据都不是正确的方法。

如何在Kubeflow管道中使用大量数据而不每次都下载它们？如何使用Kubeflow DSL表示对此数据的访问？

答案 0 :(得分：1)

此外，如果您的数据在GCS中，则TensorFlow支持访问（并写入）GCS中的数据的功能。 tf.data api使您可以建立性能数据输入管道。

答案 1 :(得分：0)

您可以在主机上装载该卷吗？

如果是，请在主机上安装该卷，然后将该目录作为hostPath挂载到容器，以便图像已经被挂载到节点，并且每当新的容器启动时，它就可以将卷挂载到容器并启动该过程以避免数据传输在每次启动容器时。