apache-spark - 如何在spark SQL中为表添加增量列ID - Thinbug

如何在spark SQL中为表添加增量列ID

时间：2016-07-14 14:36:13

标签： apache-spark apache-spark-sql spark-dataframe apache-spark-mllib

我正在开发一个spark mllib算法。我拥有的数据集采用这种形式

公司“：”XXXX“，”CurrentTitle“：”XYZ“，”Edu_Title“：”ABC“，”Exp_mnth“:.（有更多与此类似的值）

我尝试将字符串值原始编码为数字值。所以，我尝试使用zipwithuniqueID为每个字符串值的唯一值。由于某种原因，我无法将修改后的数据集保存到磁盘。我可以使用spark SQL以任何方式执行此操作吗？或者更好的方法是什么？

1 个答案:

答案 0 :(得分：5)

<强> Scala的

val dataFrame1 = dataFrame0.withColumn("index",monotonically_increasing_id())

<强>爪哇

 Import org.apache.spark.sql.functions;
Dataset<Row> dataFrame1 = dataFrame0.withColumn("index",functions.monotonically_increasing_id());