apache-spark - Twitter数据收集

时间：2018-03-10 18:58:57

标签： apache-spark twitter raspberry-pi apache-kafka

对于我的项目，我需要从Twitter收集数据。

我目前面临两种设计选择：

什么是最好的软件架构？我读到spark有Twitter支持，但我不熟悉Scala。另一方面，Apache Spark似乎是个不错的选择，但后来我不确定如何将数据保存到公共接收器
我有一些预算限制。我当然需要一台服务器来进行接收和处理。但是，对于数据收集，我不知道几个VM /容器是否比运行Kafka生产商的一堆Raspberry PI提供更好的性能/成本比。

答案 0 :(得分：2)

看看Confluent平台，尤其是Kafka Connect [1]。

开箱即用的Twitter连接器。所有Twitter数据都将流式传输到Kafka。

答案 1 :(得分：1)

同意@leshkin，Kafka Connect是最自然的选择。但是，Twitter连接器（available on github here）不需要Confluent Platform，只需要Kafka Connect，这是Apache Kafka发行版的标准部分。 https://kafka.apache.org/documentation/#connect

如果您选择，您可以在分布式模式下运行Kafka connect worker以将负载分配到多个VM /容器/盒中，这些不必与运行kafka代理的盒子相同（它们只需要一些相关的库）来自kafka和连接器和Java的libs当然）