Question

我遇到了一些麻烦。

我正在读一些文字并试图从中提取价格。我很好，但我正在尝试编写一些代码来确定文本中符号的货币名称，if语句类似于这些

if ($curr eq "\$"){
print CURRENCY "Currency: Dollars($curr)\n";
}
else {if($curr eq "£"){
print CURRENCY  "Currency: Pounds($curr)\n";
}
else {if($curr eq "€"){
print CURRENCY  "Currency: Euros($curr)\n";
}

现在这适用于$（必须明显地转义），但不适用于英镑符号或欧元符号。我认为这与Unicode编码有关，或类似于我试图谷歌提出的问题，但我找不到任何帮助。我想知道是否有人可以帮助我！

Answer 1

如何谈论Unicode字符

听起来你的编码有问题。您似乎在Perl程序的源代码中有Unicode字符。你需要使用这个pragma（这是一种说明小写模块名称，类似于编译器指令的奇特方式）：

use utf8;

将它放在程序的顶部，然后确保使用能够将其保存为UTF-8文本的编辑器实际编辑它。您可以使用file命令验证它是否表明该文件是UTF-8。

不要求Perl源使用UTF-8的替代方法是使用代码点编号或Unicode字符名称而不是文字。要获取命名的Unicode字符，请使用此编译指示：

use charnames qw[ :full ];

现在，您可以使用"\N{…}"表示法来讨论命名字符：

$pound_sign = "\N{POUND SIGN}";
$euro_sign  = "\N{EURO SIGN}";

另一种方法是使用数字代码点，如果你知道的话：

$pound_sign = chr(163);
$euro_sign  = chr(0x20AC);

如果需要，您也可以使用字符串和模式中的确切数字：

if ($text =~ /\xA3/) { … }     # POUND SIGN

if ($text =~ /\x{20AC}/) { … } # EURO SIGN

这将使您不必在您的Perl源中放入非ASCII，这可能是一个好主意，即使这样的文字幻数可能不是。但是，您仍需要考虑您的数据源是否采用某种编码方式。我将假设它采用一些Unicode编码，可能是UTF-8。我希望不是来自Oracle的CESU-8或Java的“修改过的UTF-8”。

Unicode'Furrency_Symbol'属性

仅正确的方法来检测由单个Unicode字符在文本中表示的任意货币符号是通过检测Unicode货币符号属性\p{Sc}或\p{Currency_Symbol}

这些是Unicode属性，它们是可以在正则表达式中使用的字符类。

你想说点什么

if ($curr =~ /^\p{Sc}$/) { ... }

但要实现这一点，您必须使用$curr编码中的输入源读取:utf8。在您自己的来源中，您会说：

use utf8;

在你打开的文件中，你会说其中一个：

# put at the top of your file and be done with it
use open qw[ :std :utf8 ];

# or else when opening a new handle
open(my $new_handle, "< :encoding(utf8)", "/path/to/file")
    || die "can't open /path/to/file: $!";

# if handle already opened, then just
binmode($already_opened_handle, ":encoding(utf8)")
     || die "can't binmode: $!";

从技术上讲，除了您自己的源文件中的:encoding(utf8)之外，您应该使用use utf8;，这样您就不会被欺骗。不要问。 ☹

如果您使用的是CGI.pm或XML::Simple这样的模块，那么应正常工作 - 但这取决于它。

货币符号字符的属性

这是完整的交易：

% uniprops -vag € 'POUND SIGN'
U+20AC ‹€› \N{ EURO SIGN }:
    \p{\pS} \p{\p{Sc}}
    \p{All} \p{Any} \p{Assigned} \p{InCurrencySymbols} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph}
       \p{GrBase} \p{Print} \p{Symbol}
    \p{Age:2.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Currency_Symbols}
       \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered} \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR}
       \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol} \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:A}
       \p{East_Asian_Width=Ambiguous} \p{East_Asian_Width:Ambiguous} \p{Ea=A} \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S}
       \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol} \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX}
       \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA} \p{Hangul_Syllable_Type=Not_Applicable}
       \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup} \p{Joining_Type:Non_Joining} \p{Jt=U}
       \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric} \p{Line_Break:Prefix_Numeric} \p{Lb=PR}
       \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1}
       \p{In=3.1} \p{Present_In:3.2} \p{In=3.2} \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1}
       \p{In=5.1} \p{Present_In:5.2} \p{In=5.2} \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX}
       \p{Sentence_Break=Other} \p{Word_Break:Other} \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}
U+00A3 ‹£› \N{ POUND SIGN }:
    \p{\pS} \p{\p{Sc}}
    \p{All} \p{Any} \p{Assigned} \p{InLatin1} \p{Common} \p{Zyyy} \p{Currency_Symbol} \p{Sc} \p{S} \p{Gr_Base} \p{Grapheme_Base} \p{Graph} \p{GrBase}
       \p{Pat_Syn} \p{Pattern_Syntax} \p{PatSyn} \p{Print} \p{Symbol}
    \p{Age:1.1} \p{Bidi_Class:ET} \p{Bidi_Class=European_Terminator} \p{Bidi_Class:European_Terminator} \p{Bc=ET} \p{Block:Latin_1}
       \p{Block=Latin_1_Supplement} \p{Block:Latin_1_Supplement} \p{Blk=Latin1} \p{Canonical_Combining_Class:0} \p{Canonical_Combining_Class=Not_Reordered}
       \p{Canonical_Combining_Class:Not_Reordered} \p{Ccc=NR} \p{Canonical_Combining_Class:NR} \p{Script=Common} \p{General_Category=Currency_Symbol}
       \p{Decomposition_Type:None} \p{Dt=None} \p{East_Asian_Width:Na} \p{East_Asian_Width=Narrow} \p{East_Asian_Width:Narrow} \p{Ea=Na}
       \p{General_Category:Currency_Symbol} \p{Gc=Sc} \p{General_Category:S} \p{General_Category=Symbol} \p{General_Category:Sc} \p{General_Category:Symbol}
       \p{Gc=S} \p{Grapheme_Cluster_Break:Other} \p{GCB=XX} \p{Grapheme_Cluster_Break:XX} \p{Grapheme_Cluster_Break=Other} \p{Hangul_Syllable_Type:NA}
       \p{Hangul_Syllable_Type=Not_Applicable} \p{Hangul_Syllable_Type:Not_Applicable} \p{Hst=NA} \p{Joining_Group:No_Joining_Group} \p{Jg=NoJoiningGroup}
       \p{Joining_Type:Non_Joining} \p{Jt=U} \p{Joining_Type:U} \p{Joining_Type=Non_Joining} \p{Line_Break:PR} \p{Line_Break=Prefix_Numeric}
       \p{Line_Break:Prefix_Numeric} \p{Lb=PR} \p{Numeric_Type:None} \p{Nt=None} \p{Numeric_Value:NaN} \p{Nv=NaN} \p{Present_In:1.1} \p{Age=1.1} \p{In=1.1}
       \p{Present_In:2.0} \p{In=2.0} \p{Present_In:2.1} \p{In=2.1} \p{Present_In:3.0} \p{In=3.0} \p{Present_In:3.1} \p{In=3.1} \p{Present_In:3.2} \p{In=3.2}
       \p{Present_In:4.0} \p{In=4.0} \p{Present_In:4.1} \p{In=4.1} \p{Present_In:5.0} \p{In=5.0} \p{Present_In:5.1} \p{In=5.1} \p{Present_In:5.2} \p{In=5.2}
       \p{Script:Common} \p{Sc=Zyyy} \p{Script:Zyyy} \p{Sentence_Break:Other} \p{SB=XX} \p{Sentence_Break:XX} \p{Sentence_Break=Other} \p{Word_Break:Other}
       \p{WB=XX} \p{Word_Break:XX} \p{Word_Break=Other}

查找所有\ p {Sc}字符

以下是所有46个具有Sc又名Currency_Symbol属性的Unicode字符，当前版本为Unicode 5.2 :( 对于格式化问题感到抱歉;我认为这是由于方向性< / em>的）

% unichars -a '\p{Sc}' | wc -l 46 % unichars -a '\p{Sc}' $ 36 000024 DOLLAR SIGN ¢ 162 0000A2 CENT SIGN £ 163 0000A3 POUND SIGN ¤ 164 0000A4 CURRENCY SIGN ¥ 165 0000A5 YEN SIGN ؋ 1547 00060B AFGHANI SIGN ৲ 2546 0009F2 BENGALI RUPEE MARK ৳ 2547 0009F3 BENGALI RUPEE SIGN ৻ 2555 0009FB BENGALI GANDA MARK ૱ 2801 000AF1 GUJARATI RUPEE SIGN ௹ 3065 000BF9 TAMIL RUPEE SIGN ฿ 3647 000E3F THAI CURRENCY SYMBOL BAHT ៛ 6107 0017DB KHMER CURRENCY SYMBOL RIEL ₠ 8352 0020A0 EURO-CURRENCY SIGN ₡ 8353 0020A1 COLON SIGN ₢ 8354 0020A2 CRUZEIRO SIGN ₣ 8355 0020A3 FRENCH FRANC SIGN ₤ 8356 0020A4 LIRA SIGN ₥ 8357 0020A5 MILL SIGN ₦ 8358 0020A6 NAIRA SIGN ₧ 8359 0020A7 PESETA SIGN ₨ 8360 0020A8 RUPEE SIGN ₩ 8361 0020A9 WON SIGN ₪ 8362 0020AA NEW SHEQEL SIGN ₫ 8363 0020AB DONG SIGN € 8364 0020AC EURO SIGN ₭ 8365 0020AD KIP SIGN ₮ 8366 0020AE TUGRIK SIGN ₯ 8367 0020AF DRACHMA SIGN ₰ 8368 0020B0 GERMAN PENNY SIGN ₱ 8369 0020B1 PESO SIGN ₲ 8370 0020B2 GUARANI SIGN ₳ 8371 0020B3 AUSTRAL SIGN ₴ 8372 0020B4 HRYVNIA SIGN ₵ 8373 0020B5 CEDI SIGN ₶ 8374 0020B6 LIVRE TOURNOIS SIGN ₷ 8375 0020B7 SPESMILO SIGN ₸ 8376 0020B8 TENGE SIGN ꠸ 43064 00A838 NORTH INDIC RUPEE MARK ﷼ 65020 00FDFC RIAL SIGN ﹩ 65129 00FE69 SMALL DOLLAR SIGN ＄ 65284 00FF04 FULLWIDTH DOLLAR SIGN ￠ 65504 00FFE0 FULLWIDTH CENT SIGN ￡ 65505 00FFE1 FULLWIDTH POUND SIGN ￥ 65509 00FFE5 FULLWIDTH YEN SIGN ￦ 65510 00FFE6 FULLWIDTH WON SIGN

以下是BMP中尚未包含在Unicode 4.1中的那些;注意如何组合属性和否定来拉取Unicode字符集。

% unichars --bmp '\p{Sc}' '\P{In:4.1}' ৻ 2555 09FB BENGALI GANDA MARK ₶ 8374 20B6 LIVRE TOURNOIS SIGN ₷ 8375 20B7 SPESMILO SIGN ₸ 8376 20B8 TENGE SIGN ꠸ 43064 A838 NORTH INDIC RUPEE MARK

如果您的系统上没有unichars和uniprops，只需向我发送邮件，我就会将其发送给您。它们是纯Perl中的小型实用程序，不需要额外的模块。

Answer 2

将它放在代码的顶部：

use utf8;

如documentation中所述，它表示代码包含utf8编码的字符串。

Answer 3

以下模块包含大多数众所周知的货币的货币符号：

Locale::Object::Currency

Answer 4

正如@Kinopiko在对这个问题的评论中提到的，你的代码风格需要一些工作。通过PerlTidy运行它以显示缩进显示：

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
else {
    if ( $curr eq "£" ) {
        print CURRENCY "Currency: Pounds($curr)\n";
    }
    else {
        if ( $curr eq "€" ) {
            print CURRENCY "Currency: Euros($curr)\n";
        }

这向我们展示了一些缺少结束括号（}字符），这将是语法错误。至少代码需要两个大括号来关闭if语句。

use warnings;
use strict;

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
else {
    if ( $curr eq "£" ) {
        print CURRENCY "Currency: Pounds($curr)\n";
    }
    else {
        if ( $curr eq "€" ) {
            print CURRENCY "Currency: Euros($curr)\n";
        }
    }
}

通常，我们会这样写：

use warnings;
use strict;

if ( $curr eq "\$" ) {
    print CURRENCY "Currency: Dollars($curr)\n";
}
elsif ( $curr eq "£" ) {
    print CURRENCY "Currency: Pounds($curr)\n";
}
elsif ( $curr eq "€" ) {
    print CURRENCY "Currency: Euros($curr)\n";
} else {
    print "Unexpected currency symbol \"$curr\" found."
    exit;
}

虽然我倾向于像这样构造它：

use warnings;
use strict;

if    ( $curr eq "\$" ) { print CURRENCY "Currency: Dollars($curr)\n"; }
elsif ( $curr eq "£" )  { print CURRENCY "Currency: Pounds($curr)\n";  }
elsif ( $curr eq "€" )  { print CURRENCY "Currency: Euros($curr)\n";   } 
else {
    print "Unexpected currency symbol \"$curr\" found."
    exit;
}

请注意，在if/elsif链的末尾，我添加了一个终止else语句来捕获潜在的逻辑漏洞，如果之前的$curr没有匹配符号，则会发生这种漏洞。这是一种捕获错过的测试的简单方法，但如果您的代码逻辑处理这种情况，则不是绝对需要的。

如果您还没有，请将这两行添加到代码顶部：

use warnings;
use strict;

告诉Perl对错误和可能的错误持批评态度。

如何识别Perl中的货币符号？

4 个答案:

如何谈论Unicode字符

Unicode'Furrency_Symbol'属性

货币符号字符的属性

查找所有\ p {Sc}字符