如何使用PySpark正确创建一个新的数据框?

时间:2019-06-20 23:18:11

标签: python dataframe pyspark

我正在尝试使用PySpark,通过以下方式创建数据框:

lr_col = predictions_lr.select('prediction_1')
nb_col = predictions_nb.select('prediction_2')
df = spark.createDataFrame([lr_col, nb_col])

但是,当我运行上面的代码时,出现此错误:

  

AssertionError:位于0x00000237C7D2B550的dataType py4j.java_gateway.JavaMember对象应该是“ pyspark.sql.types.DataType”类的实例

如何将数据转换为请求的数据类型?

1 个答案:

答案 0 :(得分:1)

您为两个DataFrame中的每个预测添加一个uid,然后在此id上简单地内部联接两个DataFrame。

predictions_lr.join(predictions_nb, 'id')
相关问题