自助数据功能堆栈?

时间:2019-06-15 14:51:02

标签: amazon-web-services hadoop amazon-s3 jupyter-notebook presto

人们使用什么来提供自助服务,可扩展的数据功能?

约束是:系统必须在AWS上运行且不使用EMR(或完全不使用hadoop / hdfs,因此也没有cloudera)

要明确的是,要求是:

  1. 从桌面上将一个或多个文件(可以是UI或API调用)上载到S3,并决定是否将其设为私有文件(仅对上传该文件的用户可见)或与特定用户共享< / p>

  2. SQL查询这些文件的能力,包括其他用户上传并共享的文件之间的联接

  3. 使用EC2集群大规模运行python,R,java,scala代码(而不是单节点),而无需使用ec2。能够定期安排这些工作流的奖励积分

0 个答案:

没有答案