Question

我是map reduce和spark的新手，在大数据世界中，有不同类型的数据。例每秒40,000次Google搜索 6000条/秒每天5,00,000新的FB用户，每天4 PB 35亚马逊订单/秒 5000个传感器/飞行引擎，产生10GB /秒的速度...

对于流处理过程，我们有map reduce和spark框架。那么我们可以通过spark框架处理什么样的数据？

Answer 1

对于流处理过程，我们有map reduce和spark框架。所以呢我们可以通过spark框架处理的数据种类？

您可以使用Spark轻松处理结构和半结构数据。如果可以进行数据解析，Spark还可以处理非结构化数据。

根据您的问题，如果您要使用 Hadoop MapReduce引擎引用map reduce，则无法在数据流传输中使用它。是的，您可以使用Spark进行数据流传输和实时处理。

Answer 2

可以将诸如Google搜索，Facebook帖子，推文，亚马逊订单等网络数据发送到Kafka，而来自Kafka的数据可以由火花流应用程序实时使用。

卡夫卡在这里是- 分布式发布-订阅消息系统，该系统从不同的源系统接收数据，并使数据实时可用于目标系统。

Web Application —> Kafka topic (partition-1)
Web Application —> Kafka topic (partition-2)
Web Application —> Kafka topic (partition-3)
—
—
Web Application —> Kafka topic (partition-n)


Then,

Kafka topic —> Spark Streaming App —> (hive table, hdfs file, hbase, etc)

希望这会有所帮助。

什么样的数据，我们可以通过Spark来处理？结构化/非结构化/半结构化？

2 个答案: