获得azure blob存储的最佳方法是什么

时间:2018-03-17 01:51:46

标签: azure apache-spark spark-dataframe azure-blob-storage sca

我正在使用scala和spark,需要访问azure blob存储并获取其文件列表。知道火花版本的最佳方法是2.11。

1 个答案:

答案 0 :(得分:2)

  1. 对于在本地运行的Spark,有一个官方blog介绍了如何从Spark访问Azure Blob存储。关键是您需要将Azure存储帐户配置为core-site.xml文件中与HDFS兼容的存储,并添加两个罐子hadoop-azure& azure-storage到你的类路径,通过协议wasb [s]访问HDFS。您可以参考官方tutorial以了解与isb的HDFS兼容存储,以及有关HDInsight配置的blog更多详细信息。
  2. 对于在Azure上运行的Spark,区别仅在于使用wasb访问HDFS,其他准备工作由Azure完成 使用Spark创建HDInsight集群。列出文件的方法 是SparkContext的listFileswholeTextFiles