在Bash中工作时如何处理“Too many files”问题?

时间:2008-10-09 06:18:44

标签: bash unix shell

我很多时候不得不使用包含数十万个文件的目录,进行文本匹配,替换等等。如果我走标准路线,比如说

grep foo *

我收到太多文件错误消息,所以我最终做了

for i in *; do grep foo $i; done

find ../path/ | xargs -I{} grep foo "{}"

但这些并不是最优的(为每个文件创建一个新的grep进程)。

这看起来更像程序可以接收的参数大小的限制,因为for循环中的*可以正常工作。但是,无论如何,处理这个问题的正确方法是什么?

PS:不要告诉我做grep -r,我知道这一点,我正在考虑没有递归选项的工具。

5 个答案:

答案 0 :(得分:8)

在较新版本的findutils中,find可以执行xargs的工作(包括glomming行为,这样只使用了所需的grep进程):

find ../path -exec grep foo '{}' +

使用+而不是;作为最后一个参数会触发此行为。

答案 1 :(得分:6)

如果存在包含空格的文件名的风险,您应该记得使用-print0标志与xargs一起查找-0标志:

find . -print0 | xargs -0 grep -H foo

答案 2 :(得分:4)

xargs不会为每个文件启动新进程。它将争论聚集在一起。看看xargs的-n选项 - 它控制传递给每个子命令执行的参数数量。

答案 3 :(得分:0)

我看不到

for i in *; do
    grep foo $i
done

会起作用,因为我认为“太多文件”是一个shell限制,因此它也会因for循环而失败。

话虽如此,我总是让xargs完成将参数列表拆分为可管理位的咕噜声:

find ../path/ | xargs grep foo

它不会为每个文件启动一个进程,而是每组文件。

答案 4 :(得分:0)

嗯,我有同样的问题,但似乎我提出的所有内容都已经提到了。大多数情况下,有两个问题。做全球是很昂贵的,在一百万个文件目录上做ls需要永远(在我的一台服务器上超过20分钟)并且在一百万个文件目录上执行ls *需要永远并且因“参数列表太长”错误而失败。

find /some -type f -exec some command {} \; 

似乎有助于解决这两个问题。此外,如果您需要对这些文件执行更复杂的操作,您可能会考虑将您的内容编写为多个线程。这是一个用于编写CLI内容的python入门。 http://www.ibm.com/developerworks/aix/library/au-pythocli/?ca=dgr-lnxw06pythonunixtool&S_TACT=105AGX59&S_CMP=GR