amazon-sagemaker - 如何在不使用笔记本内置算法的情况下在s3上预处理训练数据

时间：2019-03-28 15:58:08

标签： amazon-sagemaker

我想避免在训练之前使用sagemaker笔记本和预处理数据，就像简单地将csv更改为protobuf格式一样，如以下内置模型的第一个链接所示。

在以下示例中，它解释了在sagemaker python-sdk的帮助下使用sklearn管道进行预处理的方法

如果仅需要进行诸如更改之类的格式并且不需要使用sklearn处理方式，那么最佳实践是什么。

答案 0 :(得分：0)

没有必要使用SageMaker Notebook实例执行预处理或培训。笔记本是探索和进行实验的方式。对于生产用例，您可以使用AWS Step Functions安排ML管道中的任务，例如预处理，数据准备（功能工程，格式转换等），模型训练和评估。 Julien在他最近的演讲here中对此进行了介绍。

您可以探索使用AWS Glue通过Python脚本（通过Python Shell）或Apache Spark（Glue作业）进行预处理。在这种情况下，请参考此博客 https://aws.amazon.com/blogs/machine-learning/ensure-consistency-in-data-processing-code-between-training-and-inference-in-amazon-sagemaker/