如何构建测试环境(Linux,Spark,jupyterhub

时间:2016-12-21 14:12:04

标签: linux hadoop apache-spark pyspark jupyterhub

我正在研究我的论文,我有机会建立一个工作环境来测试功能及其工作原理。

应涵盖以下几点:

  • jupyterhub(在私有云中)
  • pandas,numpy,sql,nbconvert,nbviewer
  • 将数据导入DataFrame(csv),分析数据,存储数据(RDD?,HDF5?,HDFS?)
  • 未来分析的火花

测试场景包括:

  • 具有用户/主题笔记本的多用户环境
  • 分析结构表(RSEG,MSEG,EKPO)与数百万行匹配的数百万行与pandas,numpy和spark(spark-sql),matplotlib ....在这3个表中约3GB的数据
  • 使用nbconvert导出笔记本,nbviewer导出为pdf,只读notbook和/或reveal.js

你们能不能给我一些关于我应该用于测试的笔记的一些提示或经验,Linux发行版是一个好的开始? 我相信还有很多问题,我有办法找到方法或信息来评估可能的答案。

提前感谢!

0 个答案:

没有答案
相关问题