我必须使用什么技术来完成我的项目

时间:2015-07-25 07:34:18

标签: mysql hadoop

我想知道我需要用什么技术来编写我的应用程序。 要求:

数据:主表,可以有数百万行。此表中的数据不会更改(但每天都会添加行),但会有其他表(事务表)更新/插入/删除,这些表也将根据处理数量达到数百万行。 / p>

处理:主表有一列行类别。我需要从每个类别中随机抽取一行并进行处理。处理时间将非常短,但随机行选择将非常高,可以是数百万。意味着我需要每小时拉出数百万行并处理。我需要将处理过的细节存储在其他表中。

使用带火花的蜂巢表是否可以?我是hadoop技术的新手。但我的目的是编写一个高度可扩展的应用程序。我是否需要为每个类别而不是单个主表创建一个表?可以在hive中维护其他事务表吗?还有其他选择吗?

万分感谢您的投入!

Chintu

1 个答案:

答案 0 :(得分:0)

如果您的数据适合RDBMS,那么就不需要去Hadoop / Spark了。你会得到一个更复杂,更可能更慢的解决方案(由于分发,序列化等)而不仅仅是使用SQL

现在最好解决您的问题,并在以后/当您的问题发生变化时重写