访问Hadoop的原始数据

时间:2012-08-18 21:03:54

标签: azure hadoop-streaming

我正在查看data.seattle.gov数据集,我想知道如何将所有这些大型原始数据发送到hadoop集群。我在azure上使用hadoop。

2 个答案:

答案 0 :(得分:0)

在Windows Azure中,您可以将数据集(非结构化数据等)放在Windows Azure存储中,然后从Hadoop集群中访问它

查看博文:Windows Azure上的Apache Hadoop:从Hadoop集群连接到Windows Azure存储:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/01/05/apache-hadoop-on-windows-azure-connecting-to-windows-azure-storage-your-hadoop-cluster.aspx

您还可以从Azure Marketplace获取数据,例如政府数据集等..

http://social.technet.microsoft.com/wiki/contents/articles/6857.how-to-import-data-to-hadoop-on-windows-azure-from-windows-azure-marketplace.aspx

答案 1 :(得分:0)

看起来data.seattle.gov是一个独立的数据服务,不是建立在公共云之上。 他们拥有自己的Restful API来进行数据访问。
我认为最简单的方法是将感兴趣的数据下载到您的hadoop集群,或者 到S3然后在Amazon EC2上使用EMR或自己的集群。
如果他们(data.seattle.gov)具有相关的查询功能,您可以根据需要从您的hadoop集群中查询数据,并将数据引用作为输入。只有在这些查询中进行非常严重的数据减少时,它才有效 - 否则网络带宽将限制性能。