大数据集成测试最佳实践

时间:2015-12-30 15:14:52

标签: apache-spark apache-storm bigdata

我正在寻找有关基于AWS的数据提取管道的最佳实践的一些资源,该管道使用Kafka,风暴,火花(流和批处理),使用各种微服务读取和写入Hbase以暴露数据层。对于我的本地环境,我正在考虑创建docker或vagrant图像,这将允许我与env进行交互。我的问题就是如何为一个更接近生产的功能性端到端环境站起来的东西,这种下降方式将是一个始终在环境但却变得昂贵。就perf性环境而言,似乎我可能不得不提出并拥有可以拥有“世界”的服务帐户,但其他帐户将通过计算资源受到限制,因此它们不会压倒集群

我很好奇其他人如何处理同样的问题,如果我正在考虑这个问题。

2 个答案:

答案 0 :(得分:0)

AWS还通过EC2容器提供Docker服务。如果使用Docker映像的本地部署成功,则可以查看AWS EC2容器服务(https://aws.amazon.com/ecs/)。

另外,请查看storm-docker(https://github.com/wurstmeister/storm-docker),提供易于使用的docker文件来部署风暴群。

答案 1 :(得分:0)

尝试hadoop迷你群集。它支持您正在使用的大多数工具。

Mini Cluster