apache-spark - 火花或风暴（三叉戟）

我正在尝试在我们的系统中扩展一个组件，并考虑在Storm（Trident）和Spark之间应该采用什么更好的方法。

因此，我们有2个大型集合，可以包含最多存储在redis集群中的百万个事件。说S1和S2。

现在，我们从消息队列（Kafka）中读取消息，并且需要找到S1和S2中存在的所有元素（基本上找到**S1∩S2）。现在对于小集合，Redis本身可以有效地完成交集，但我们预计这些集合的大小可以达到百万。**

为了解决上述问题，我们正在寻找一些分布式计算框架（即Storm和Spark）。

我对使用Storm的基本Spouts和Bolts有一点经验，并且认为它无法在这里有效地工作，因为我们必须在我们的一个螺栓中写入交集的逻辑。探索Trident是否有用，但在我看来它可能无法提供足够的效果。

另一方面， Spark在其核心提供了RDD，它提供了交叉，union等操作，可以开箱即用地处理，我猜我们是从消息队列中读取消息并将任务提交给将从redis读取的spark集群并有效地计算S1∩S2。因此，我认为Spark非常适合我们的用例。如果Storm和Spark都可以提供帮助，我会倾向于使用Storm。

这里的任何人都可以提供一些观点。

免责声明：我是Flink和Storm的提交者，在Confluent担任软件工程师，专注于Kafka Streams。

我不熟悉Spark细节，但“相交”听起来像批处理操作符 - 所以我不确定，如果它可以在Spark Streaming中使用 - 你应该仔细检查一下（我假设你想要将Spark与Storm进行比较时使用Spark Streaming。如果你想进行批处理，那么使用Spark并利用“交叉”运算符听起来是合理的。

在流处理中执行“交叉”与批处理不同。但是，它基本上是一个连接操作，它应该不难实现（只要系统提供了正确的连接运算符）。

正如您提到的那样，您将收集来自Kafka的消息，可能值得尝试Kafka Streams，Kafka的流处理库。因此，您无需运行其他系统。 Kafka Streams提供丰富的DSL，包括滑动窗口连接。

如果你想使用流处理框架，我宁愿使用{IMH}的Flink比Storm（或Spark）更好。

另请参阅Confluent的Kafka Streams文档，这些文档比Apache Kafka的Kafka Streams文档更详细：http://docs.confluent.io/current/streams/index.html

火花或风暴（三叉戟）

1 个答案: