相同的代码从不同的运行中返回不同的结果

时间:2019-02-05 13:29:43

标签: pyspark jupyter-notebook

在我的代码中,有一个我从配置单元表中创建的数据框。我使用功能过滤器做一个简单的过滤器。但是结果是随机的:我多次执行包含过滤器的同一个单元,有时返回行,有时不返回。我确定预期结果中只有一行。并且在源文件上没有其他其他作品可以同时工作。

df = spark.sql("select id from hive_table limit 100")

df.filter(col('id') == 27654909)

1 个答案:

答案 0 :(得分:1)

我不是pyspark的专家,可以肯定, ,但是您的症状听起来像是 limit ,实际上控制着搜索的深度 not 返回的最大记录结果数。

由于我想这是在开发环境中,如果删除limit子句,您是否会100%地获得成功?

相关问题