是否可以在Hadoop上运行Python的scikit-learn算法?

时间:2014-02-17 10:42:44

标签: python hadoop machine-learning bigdata scikit-learn

我知道可以在Hadoop上使用python语言。

但是有可能在Hadoop上使用scikit-learn的机器学习算法吗?

如果答案是否定的,是否有一些用于python和Hadoop的机器学习库?

感谢您的帮助。

2 个答案:

答案 0 :(得分:3)

简答:。因为您可以在Hadoop上运行几乎所有内容。

答案很长:取决于。首先回答这个问题:

  • 您可以将数据集拆分为分区吗?

此外,您可能会发现this演示文稿很有用(Hadoop从第73张幻灯片开始)。

答案 1 :(得分:3)

留意jpype模块。通过使用jpype,您可以运行Mahout算法,并且您将使用Python编写代码。但是我觉得这不是最好的解决方案。如果你真的想要大规模的可扩展性而不是直接使用Mahout。我练习,做POC,用scikit-learn解决玩具问题,但是当我需要进行大规模的大数据聚类等等,而不是我去Mahout。