加载csv文件s3 pyspark的随机样本

时间:2018-02-28 13:34:45

标签: amazon-web-services csv amazon-s3 pyspark

我尝试在s3中加载一个总共100万行数据的随机样本。 有没有一种简单的方法可以将s3中的随机样本直接加载到pyspark数据帧中?

在熊猫中,这就是这个     df = pandas.read_csv(filename, skiprows=skiplines)

我可以使用pyspark中的等效物吗?

1 个答案:

答案 0 :(得分:1)

默认情况下,我认为spark DataFrameReader.csv lazypyspark.sql.DataFrame.sample [citation needed]

因此,您应该能够阅读csv并使用this answer

frac = 0.01 # get approximately 1%
df = spark.read.csv(filename)
sample = df.sample(withReplacement=False, fraction=frac)

但是在应用转换之前没有任何实际执行。