数据集<行>将一列中的所有值重复多个

时间:2018-11-01 18:45:15

标签: java apache-spark rdd apache-spark-dataset

我有一个日期集Dataset<Row> table1,我通过使用以下代码将其与另一个数据集Dataset<Row> table2结合起来对其进行了修改。

table1.join(table2,table1.col(“ word”)。equalTo(table2.col(“ word”)),“ left”)。select(table1.col(“ word”),table1.col( “ count”),table2.col(“ probabilty”),table1.col(“ count”)。multiply(table2.col(“ probabilty”)。alias(“ compute”)))。show();

输出像这样

+-------+-----+----------+---------------------------------+
|   word|count|probabilty|(count * probabilty AS `compute`)|
+-------+-----+----------+---------------------------------+
|pointed|    1|     0.016|                            0.016|
|  young|    2|     0.033|                            0.066|
|version|    1|     0.016|                            0.016|
+-------+-----+----------+---------------------------------+

我想知道它们是如何对日期集Dataset<Row> table1中的计算列的所有值乘以0.016 * 0.066 * 0.016

0 个答案:

没有答案
相关问题