什么样的数据,我们可以通过Spark来处理?结构化/非结构化/半结构化?

时间:2019-07-02 04:58:06

标签: apache-spark spark-streaming

我是map reduce和spark的新手,在大数据世界中,有不同类型的数据。 例 每秒40,000次Google搜索 6000条/秒 每天5,00,000新的FB用户,每天4 PB 35亚马逊订单/秒 5000个传感器/飞行引擎,产生10GB /秒的速度...

对于流处理过程,我们有map reduce和spark框架。那么我们可以通过spark框架处理什么样的数据?

2 个答案:

答案 0 :(得分:0)

  

对于流处理过程,我们有map reduce和spark框架。所以呢   我们可以通过spark框架处理的数据种类?

您可以使用Spark轻松处理结构和半结构数据。如果可以进行数据解析,Spark还可以处理非结构化数据。

根据您的问题,如果您要使用 Hadoop MapReduce引擎引用map reduce,则无法在数据流传输中使用它。 是的,您可以使用Spark进行数据流传输和实时处理。

答案 1 :(得分:0)

可以将诸如Google搜索,Facebook帖子,推文,亚马逊订单等网络数据发送到Kafka,而来自Kafka的数据可以由火花流应用程序实时使用。

卡夫卡在这里是- 分布式发布-订阅消息系统,该系统从不同的源系统接收数据,并使数据实时可用于目标系统。

Web Application —> Kafka topic (partition-1)
Web Application —> Kafka topic (partition-2)
Web Application —> Kafka topic (partition-3)
—
—
Web Application —> Kafka topic (partition-n)


Then,

Kafka topic —> Spark Streaming App —> (hive table, hdfs file, hbase, etc)

希望这会有所帮助。