pdfgrep' \ d {3} - \ d {2} - \ d {4}' vs' [0-9] {3} [ - ]?[0-9] {2} [ - ]?[0-9] {4}'

时间:2017-02-15 17:50:33

标签: regex linux grep

pdfgrep \d{3}-\d{2}-\d{4} vs [0-9]{3}[-]?[0-9]{2}[-]?[0-9]{4}

1)完成这两个但只得到第二个表达式的结果。 2)第二个甚至没有捕捉到所有的结果,当我做一些抽查时它错过了一些。有什么想法?所有SSN都是xxx-xx-xxx格式。

整个命令:

find . -iname '*.pdf' -exec pdfgrep expression {} +

更新: 1)见下文 2)某些pdf无法搜索/未正确编码

1 个答案:

答案 0 :(得分:1)

这是 bug 。使用

pdfgrep -P "\\w+" *.pdf

将返回与\w范围对应的结果,而对\\d+执行相同操作则不起作用。