正则表达式匹配除字母字符之外的所有unicode字符

时间:2015-12-19 19:01:59

标签: regex unicode grep

如何为包含ASCII以外任何字符的行格式化UTF-8文本文件,除了选择几个字符,例如。 [æÆøØåÅ]

以下三行:

ABC
ÆØÅ
ABC-ÆØÅ 

应该屈服:

ABC-ÆØÅ 

因为笑脸在ASCII之外并且不属于额外忽略的字符。

1 个答案:

答案 0 :(得分:0)

GNU grep似乎支持UTF-8。以下解决了OS X上的问题。

brew install homebrew/dupes/grep
ggrep -P '[^\x00-\x7FæÆøØåÅ]' *.txt