Spark:静默执行sc.wholeTextFiles

时间:2015-01-08 11:49:37

标签: hadoop apache-spark

我使用input = sc.wholeTextFiles(hdfs://path/*)在Spark中加载大约200,000个文本文件 然后我运行println(input.count) 事实证明,我的火花壳输出了大量的文本(这是每个文件的路径),过了一会儿,它只是挂起而没有返回我的结果。

我认为这可能是由wholeTextFiles输出的文字数量所致。你知道以任何方式静默运行这个命令吗?还是有更好的解决方法?

谢谢!

1 个答案:

答案 0 :(得分:1)

您的文件有多大? 来自wholeTextFiles API

  

首选小文件,也允许使用大文件   导致表现不佳。

conf/log4j.properties中,您可以抑制过多的日志记录,如下所示:

# Set everything to be logged to the console
log4j.rootCategory=ERROR, console

这样,您只能res返回 repl ,就像在Scala(语言) repl 中一​​样。

以下是您可以使用的所有其他日志记录级别:log4j API

相关问题