使用Dask在Kubernetes集群上工作时,建议的工作流程是什么?

时间:2019-03-06 21:57:26

标签: kubernetes dask

我已经在GCP上使用Kubernetes引擎建立了一个Kubernetes集群,以便使用Dask进行一些数据预处理和建模。我使用头盔following these instructions安装了Dask。

现在,我看到有两个文件夹,workexamples

enter image description here

我能够执行example文件夹中笔记本的内容,从而确认一切正常。

我的问题如下

  • 在集群上工作时建议遵循哪些工作流程?我应该只在work下创建一个新的笔记本并开始对数据预处理脚本进行原型设计吗?
  • 如何确保每次升级Helm部署时都不会删除我的工作?您是否会在每次升级时将它们手动移到存储桶中(这看起来很乏味)?还是创建一个简单的vm实例,在其中创建原型,然后在完整数据集上运行时将所有内容移至群集?

我刚接触云中分布式环境中的数据,因此欢迎提出任何建议。

1 个答案:

答案 0 :(得分:1)

  

在集群上工作时,建议遵循哪些工作流程?

有许多工作流程适合不同的小组。没有一个幸运的工作流程。

  

我是否应该在工作中创建一个新的笔记本并开始对数据预处理脚本进行原型制作?

当然可以。

  

如何确保每次升级Helm部署时都不会删除我的工作?

您可以将数据保存到更多永久性存储中,例如云存储或其他位置托管的git存储库。

  

您是否会在每次升级时将它们手动移到存储桶中(这看起来很乏味)?

是的,那会起作用(是的,是的)

  

还是您将创建一个简单的vm实例,在其中创建原型,然后在完整数据集上运行时将所有内容移至群集?

是的,那也可以。

摘要

Helm图表包含Jupyter笔记本服务器,以提供便利和简便的测试,但它不能替代完整的长期持久生产力套件。为此,您可以考虑使用像JupyterHub这样的项目(该项目可以解决您在上面列出的问题),或者是当今市场上许多针对企业的变体之一。将Dask与其他任何一项一起使用将很容易。