如何将中文字符与grep匹配?

时间:2016-12-25 01:02:48

标签: vim grep cjk

验证[\u4e00-\u9fff]可以匹配vim中的中文字符。

:%g/[\u4e00-\u9fff]/d

上面的命令可以删除包含中文字符的所有行。

ls  /tmp/test
ktop 1_001.png.bak
fonts.dir.bak
New
Screenshot from 2016-09-12 16:50:29.png.bak
你好

现在我想提取名字是中文字符的文件。

ls  /tmp/test |grep -P  '[\x4e\x00-\x9f\xff]'  

该命令无法获取名称为中文字符的文件 怎么解决?

ls / tmp / test | grep -v' [a-z]' 可以得到它,但这正是我想要的。

2 个答案:

答案 0 :(得分:7)

要仅匹配具有汉字(中文)字符的行(文件名),您可以使用[\p{Han}]

ls  /tmp/test | grep -P '[\p{Han}]'

\p{Han}属于the Unicode-script category properties usable in any PCRE-supporting engine

\p{Common} \p{Arabic} \p{Armenian} \p{Bengali} \p{Bopomofo}
\p{Braille} \p{Buhid} \p{Canadian_Aboriginal} \p{Cherokee}
\p{Cyrillic} \p{Devanagari} \p{Ethiopic} \p{Georgian} \p{Greek}
\p{Gujarati} \p{Gurmukhi} \p{Han} \p{Hangul} \p{Hanunoo} \p{Hebrew}
\p{Hiragana} \p{Inherited} \p{Kannada} \p{Katakana} \p{Khmer} \p{Lao}
\p{Latin} \p{Limbu} \p{Malayalam} \p{Mongolian} \p{Myanmar} \p{Ogham}
\p{Oriya} \p{Runic} \p{Sinhala} \p{Syriac} \p{Tagalog} \p{Tagbanwa}
\p{TaiLe} \p{Tamil} \p{Telugu} \p{Thaana} \p{Thai} \p{Tibetan}

答案 1 :(得分:0)

grep -P '[\p{Han}]'grep -P "[一-鿿]" 方法都不适用于我的旧版 grep (2.10)。 然而,如果字符编码保证是 UTF-8,我们总是可以将 \u4e00-\u9fff 范围扩展到字节级别:

ls  /tmp/test |grep -P  '[\xE5-\xE9][\x80-\xBF][\x80-\xBF]|\xE4[\xB8-\xBF][\x80-\xBF]'

它在我的版本中运行良好。