如何使用shell来计算以UTF-8编码的文件中的中文字符

时间:2015-07-22 12:44:32

标签: shell utf-8 wc

  

cat doc.txt ,以下字符将显示:

你好 Hello!
这是中文。This is a Chinese doc.

我可以使用命令

  

wc -w doc.txt

但会显示:

8 doc.txt

这个命令将字符你好这是中文作为一个单词,而实际上你好是两个中文单词和这是中文四。

我想要的是让这些中文单词算一算(示例中有12个单词),有人可以帮帮忙吗?

1 个答案:

答案 0 :(得分:2)

您可以使用-m--chars选项:

$ echo -n "你好" | wc -m  

输出

2