使用Pypark在大数据上构建ML模型所需的系统配置

时间:2019-05-11 06:41:51

标签: apache-spark

我通常在python上构建ML模型,到目前为止我使用的最大数据是150万条记录,现在我想构建用于异常检测的ML模型,我的火车数据包含大约100亿条记录。 我被要求在PySpark上构建该模型。由于我是Pyspark的新手,我只是想知道如果必须在PySpark中构建模型,要处理这么大的数据需要什么系统配置。

0 个答案:

没有答案