如何查找地图部分中创建的键数?

时间:2014-09-30 05:50:22

标签: apache-spark rdd

我正在尝试编写Spark应用程序,它会找到map函数中创建的密钥数。我找不到任何可以让我这样做的功能。

我想到的一种方法是使用累加器,我在reduce函数中将累加器变量加1。我的想法是基于累加器变量在节点之间作为计数器共享的假设。

请指导。

1 个答案:

答案 0 :(得分:0)

如果你看起来像火花中的Hadoop计数器一样,最准确的近似是你可以在每个任务中增加的累加器,但是你没有任何关于Spark到目前为止处理的数据量的信息。 / p>

如果你只想知道你的rdd中有多少个不同的键,你可以做一些像不同映射键的计数(rdd.map(t =&gt; t_1))。distinct.count)< / p>

希望这对你有用