如何从文本文件中提取字符

时间:2019-05-17 06:18:51

标签: text unicode character non-ascii-characters

我想从文本文件中提取所有字符以创建子集字体。如何提取和排序字符?

示例:

输入“你好,哈利。안녕?잘지내니?おはよう。どうもありがとう。”

输出“,。?Haelory。あうおがとどはもより내녕니안잘지”

2 个答案:

答案 0 :(得分:0)

perl -C -Mutf8 -MList::Util=uniq -E'say uniq sort "Hello, Harry. 안녕? 잘 지내니? おはよう。どうもありがとう。" =~ /(\X)/g'

答案 1 :(得分:-1)

在JavaScript中,它将是:

let input = "Hello, Harry. 안녕? 잘 지내니? おはよう。どうもありがとう。";
let output = [...new Set(Array.from(input))].sort().join('');
// -> " ,.?Haelory。あうおがとどはもより내녕니안잘지"