Question

我使用input = sc.wholeTextFiles(hdfs://path/*)在Spark中加载大约200,000个文本文件然后我运行println(input.count) 事实证明，我的火花壳输出了大量的文本（这是每个文件的路径），过了一会儿，它只是挂起而没有返回我的结果。

我认为这可能是由wholeTextFiles输出的文字数量所致。你知道以任何方式静默运行这个命令吗？还是有更好的解决方法？

谢谢！

Answer 1

您的文件有多大？来自wholeTextFiles API：

首选小文件，也允许使用大文件导致表现不佳。

在conf/log4j.properties中，您可以抑制过多的日志记录，如下所示：

# Set everything to be logged to the console
log4j.rootCategory=ERROR, console

这样，您只能res返回 repl ，就像在Scala（语言） repl 中一样。

以下是您可以使用的所有其他日志记录级别：log4j API。