直接从网站获取数据到hdfs

时间:2018-04-09 06:23:38

标签: hadoop server hdfs flume

如何直接获取在hdfs上同时进入网站的数据?

2 个答案:

答案 0 :(得分:0)

如果您计划进行高可用性读写,则可以使用Hbase存储数据。

如果您正在使用REST API,则可以将数据直接存储到Hbase,因为它具有可以存储到Hbase表中的专用Hbase REST API。

1)线性和模块化可扩展性。 2)严格一致的读写。 3)表的自动和可配置分片。

有关HBase的更多信息: - https://hbase.apache.org/

如果你想从任何来源将一些流数据传输到HDFS,你可以查看融合平台(内置kafka)并存储到HDFS中。

答案 1 :(得分:0)

这完全取决于您拥有的数据以及您是否愿意在Hadoop之上维护额外的工具。

如果您只是接受来自日志文件的事件,Flume,Fluentd或Filebeat是您的最佳选择。

如果您接受客户端事件,例如点击或鼠标移动,那么您需要一些后端服务器接受这些请求。例如,Flume TCP Source,但您可能希望在此服务前面使用某种类型的身份验证端点,以防止随机外部消息进入您的事件通道。

您也可以使用Kafka。 Kafka REST代理(通过Confluent)可用于接受REST请求并生成Kafka主题。 Kafka HDFS Connect(也由Confluent)可以使用Kafka并近乎实时地将消息发布到HDFS,就像Flume

其他选项包括Apache Nifi或Streamsets。同样,使用带有HDFS目标处理器的TCP或HTTP事件源侦听器