低Spark Spark Streaming CPU利用率

时间:2017-03-17 20:57:02

标签: apache-spark spark-streaming

在我的Spark Streaming作业中,CPU使用率不足(仅为5-10%)。

它从Kafka获取数据并发送到DynomoDB或thridparty端点。

是否有任何建议可以更好地利用cpu资源,假设端点不是瓶颈。

1 个答案:

答案 0 :(得分:0)

Kafka的并行度取决于主题的分区数。

如果主题中的分区数量很少,您将无法在火花流式集群中高效并行化。

首先,增加主题的分区数。

如果无法增加Kafka主题的分区,请在DStream.foreachRdd之后通过重新分区来增加分区数。

这将在所有节点之间分配数据并提高效率。