在不同的群集/计算机上部署Spark和Hadoop

时间:2015-09-20 20:40:37

标签: hadoop apache-spark apache-spark-sql

Spark和Hadoop / Yarn可以部署在不同的集群上吗?

问题场景如下:

  1. 数据/配置单元表已驻留在Hadoop湖中。
  2. 我想对这些数据实施一些BI处理。
  3. 一种方法是在此Hadoop集群上部署Spark,并利用现有的CPU / RAM资源进行数据处理。这很好。
  4. 但是我希望将不同的设置设置为从Hadoop湖获取数据的Spark Cluster(4个工作节点)(数据大小不超过500GB),从Spark集群处理和显示输出。有时,处理后的数据将存储在Hadoop湖中。这样做的原因是它让我可以更好地控制我的BI逻辑,并且不会干扰现有的Hadoop湖。我对网络流量'好'。这种方法可行吗?
  5. 请建议

    此致 众议员

0 个答案:

没有答案
相关问题