使用AWS处理大量图像

时间:2015-10-17 15:06:14

标签: python amazon-web-services apache-spark python-imaging-library anaconda

我有很多图像100K +存储在S3中,我有一些使用pySpark处理其中一些的代码。我正在使用Anaconda Python,因此已经正确安装了大量的库,我使用库scipyPIL进行图像处理。

我打算使用EMR,但这是我的选择:

  1. 如何在群集上没有太多麻烦的情况下正确安装所有库:
  2.   

    对于Python应用程序,只需传递一个.py文件即可    而不是JAR,并添加Python .zip,.egg或.py   使用--py-files将文件写入搜索路径。 - [Spark文档]

    1. 他们还支持customized bootstrap在配置群集时安装软件。然而,事实证明,Anaconda的Linux安装并不像yum install -y'那么容易。安装包括:

      • 下载anacondaxxx.sh
      • bash anacondaxxx.sh
      • #answer以交互方式提出4或5个问题
      • ..
    2. 有人能指出我正确的方向是什么是一个更好的方法来建立一个安装了Spark和Anaconda Python(或至少scipy和PIL)的集群。

1 个答案:

答案 0 :(得分:1)

您可以使用EMR bootstrap actionssilent install of anaconda吗?

您可能还想考虑Lambda,因为它现在支持Python(2.7)。鉴于文件已经在S3中,您需要为它们编写Lambda事件脚本。