hadoop - 直接从网站获取数据到hdfs

时间：2018-04-09 06:23:38

标签： hadoop server hdfs flume

如何直接获取在hdfs上同时进入网站的数据？

答案 0 :(得分：0)

如果您计划进行高可用性读写，则可以使用Hbase存储数据。

如果您正在使用REST API，则可以将数据直接存储到Hbase，因为它具有可以存储到Hbase表中的专用Hbase REST API。

1）线性和模块化可扩展性。 2）严格一致的读写。 3）表的自动和可配置分片。

有关HBase的更多信息： - https://hbase.apache.org/

如果你想从任何来源将一些流数据传输到HDFS，你可以查看融合平台（内置kafka）并存储到HDFS中。

答案 1 :(得分：0)

这完全取决于您拥有的数据以及您是否愿意在Hadoop之上维护额外的工具。

如果您只是接受来自日志文件的事件，Flume，Fluentd或Filebeat是您的最佳选择。

如果您接受客户端事件，例如点击或鼠标移动，那么您需要一些后端服务器接受这些请求。例如，Flume TCP Source，但您可能希望在此服务前面使用某种类型的身份验证端点，以防止随机外部消息进入您的事件通道。

您也可以使用Kafka。 Kafka REST代理（通过Confluent）可用于接受REST请求并生成Kafka主题。 Kafka HDFS Connect（也由Confluent）可以使用Kafka并近乎实时地将消息发布到HDFS，就像Flume

其他选项包括Apache Nifi或Streamsets。同样，使用带有HDFS目标处理器的TCP或HTTP事件源侦听器