java - AWS如何用于学校项目的数据挖掘？

时间：2010-10-22 08:17:14

标签： java dataset amazon-ec2

我必须为数据挖掘主题做一个类项目。我的主题是挖掘stackoverflow的趋势主题数据。

所以，我已经从here下载了数据，但数据集非常庞大（posts.xml的大小为3gb），我无法在我的机器上处理它。

那么，你有什么建议，AWS的数据处理是一个好的选择还是不值得呢？

我之前没有AWS的经验，那么AWS如何帮助我学校项目？你怎么会这样做？

更新1

因此，我的数据处理将分为3个阶段：
1.将XML（从so.com转储）转换为.ARFF（对于weka jar），
2.使用weka中的algos挖掘数据，
3.将输出转换为GraphML格式，将由prefuse库读取以进行可视化。

那么，AWS在哪里适合？我支持AWS中有两个功能可以帮助我：
1. EC2和
2.弹性MapReduce，
但我不确定 mapreduce 是如何工作的，如何在我的项目中使用它。我可以吗？

答案 0 :(得分：1)

您可以将EC2（您将用于执行实际计算的AWS的一部分）视为以编程方式或通过简单的Web界面租用计算机的方式。如果您需要很多机器而且打算在短时间内使用它们，那么AWS可能对您有好处。但是，没有灵丹妙药。您仍然需要选择合适的软件来安装它们，在EBS卷或S3中加载数据以及所有其他无聊的细节。

另外请注意，EC2实例和存储相对昂贵。如果您实际拥有机器/磁盘并使用它3年，请准备支付比您支付的费用多5-10倍。

关于您的问题，我真诚地怀疑现代计算机无法处理3 GB的xml文件。事实上，我只是在我的工作站上索引SOLR中的所有堆栈溢出的posts.xml，这一切都顺其自然。你在使用类似SAX的解析器吗？如果没有，那将比所有云服务的组合更有帮助。

答案 1 :(得分：0)

听起来像一个有趣的项目，或者至少是接触新技术的一个很好的借口 - 我希望在我上学的时候会有类似的东西。

在大多数情况下，AWS为您提供了一个准系统服务器，所以显而易见的问题是，您是否决定了如何处理数据？例如。 - 你只是想在.xml上运行一个shell脚本，或者你想使用hadoop等吗？

AWS的魅力在于您可以根据需要获得所需的全部容量。例如，在您的情况下，您可能不需要多个实例只需要一个强大的实例。如果您只需要服务器几个小时，则无需为整个月甚至一周的根服务器付费。

如果您让我们更多地了解您希望如何处理数据，我们可以提供更多帮助。