Mongo Spark Connector - 没有并行读取

时间:2017-06-08 16:29:25

标签: mongodb apache-spark

Mongo Spark Connector非常易于使用,但它似乎无法扩展以读取大数据。

  

示例代码:

  val readConfig = ReadConfig(Map("uri" -> "mongodb://mymongoURI", "database"
"mydb", "collection" -> "mycollection" )) 
    val rdd =  MongoSpark.load(sc, readConfig).withPipeline(Seq(Document.parse("{ $match: { 'dayOfYear': '1'}}")))
    val df = rdd.toDF()

我已经使用不同的组合和配置运行上面的示例代码,但Mongo连接器似乎不支持并行读取。任务总是在一个任务节点上执行(我有20个节点集群)。当您想要运行1 TB或更多数据时,这不会起作用。

有人能够解决这个难题吗?或者尝试的方式是错的?

0 个答案:

没有答案
相关问题