AWS如何用于学校项目的数据挖掘?

时间:2010-10-22 08:17:14

标签: java dataset amazon-ec2

我必须为数据挖掘主题做一个类项目。我的主题是挖掘stackoverflow的趋势主题数据。

所以,我已经从here下载了数据,但数据集非常庞大(posts.xml的大小为3gb),我无法在我的机器上处理它。

那么,你有什么建议,AWS的数据处理是一个好的选择还是不值得呢?

我之前没有AWS的经验,那么AWS如何帮助我学校项目?你怎么会这样做?

更新1

因此,我的数据处理将分为3个阶段:
1.将XML(从so.com转储)转换为.ARFF(对于weka jar),
2.使用weka中的algos挖掘数据,
3.将输出转换为GraphML格式,将由prefuse库读取以进行可视化。

那么,AWS在哪里适合?我支持AWS中有两个功能可以帮助我:
1. EC2和
2.弹性MapReduce,
但我不确定 mapreduce 是如何工作的,如何在我的项目中使用它。我可以吗?

2 个答案:

答案 0 :(得分:1)

您可以将EC2(您将用于执行实际计算的AWS的一部分)视为以编程方式或通过简单的Web界面租用计算机的方式。如果您需要很多机器而且打算在短时间内使用它们,那么AWS可能对您有好处。但是,没有灵丹妙药。您仍然需要选择合适的软件来安装它们,在EBS卷或S3中加载数据以及所有其他无聊的细节。

另外请注意,EC2实例和存储相对昂贵。如果您实际拥有机器/磁盘并使用它3年,请准备支付比您支付的费用多5-10倍。

关于您的问题,我真诚地怀疑现代计算机无法处理3 GB的xml文件。事实上,我只是在我的工作站上索引SOLR中的所有堆栈溢出的posts.xml,这一切都顺其自然。你在使用类似SAX的解析器吗?如果没有,那将比所有云服务的组合更有帮助。

答案 1 :(得分:0)

听起来像一个有趣的项目,或者至少是接触新技术的一个很好的借口 - 我希望在我上学的时候会有类似的东西。

在大多数情况下,AWS为您提供了一个准系统服务器,所以显而易见的问题是,您是否决定了如何处理数据?例如。 - 你只是想在.xml上运行一个shell脚本,或者你想使用hadoop等吗?

AWS的魅力在于您可以根据需要获得所需的全部容量。例如,在您的情况下,您可能不需要多个实例只需要一个强大的实例。如果您只需要服务器几个小时,则无需为整个月甚至一周的根服务器付费。

如果您让我们更多地了解您希望如何处理数据,我们可以提供更多帮助。

相关问题