用于处理特殊字符的正则表达式的微小变化[ä,ö,ü,ß...]

时间:2011-02-17 22:29:57

标签: regex perl unicode special-characters

我已经解析了一个更大的数据集:我遇到了一个问题:解析数据集的结果 - (德语)。看一个例子 - 留下一个小东西:在德语中我们有特殊字符无法正确识别....请参阅以下几行 - 结果:

lfd. Nr. Schul- nummer Schulname Stra�e PLZ Ort Telefon Fax Schulart Webseite
1 0401 M�dchenrealschule Marienburg,�Abenberg, der Di�zese Eichst�tt Marienburg 1 91183� Abenberg�  09178/509210  Realschulen  mrs-marienburg.homepage.t-online.de 
2 6581 Volksschule Abenberg�(Grundschule) G�ss�belstr. 2 91183� Abenberg�  09178/215 09178/905060 Volksschulen  home.t-online.de/home/vs-abenberg 
3 6913 Mittelschule Abenberg� G�ss�belstr. 2 91183� Abenberg�  09178/215 09178/905060 Volksschulen  home.t-online.de/home/vs-abenberg 
4 0402 Johann-Turmair-Realschule�Staatliche Realschule Abensberg Stadionstra�e 46 93326� Abensberg�  09443/9143-0,12,13 09443/914330 Realschulen  www.rs-abensberg.de 
5 3041 Cabrini-Schule Offenstetten, Priv. F�rderzentrum�F�rderschwerp. geist.Entwickl. d. Kath.Jugendf�rs. Am Schmiedweiher 8 93326� Abensberg�Offenstetten 09443/9188-3 09443/918855 Volksschulen zur sonderp�dog. F�rderung  www.cabrinischule.de 
6 3074 Private Berufsschule zur sonderp�d. F�rderung,�F�rderschwerpunkt Lernen, Abensberg Regensburger Stra�e 60 93326� Abensberg�  09443/709191 09443/709193 Berufsschulen zur sonderp�dog. F�rderung  www.berufsschule-abensberg.de 

在以下几行中我添加了正确的字符,以粗体显示一些更正!

lfd. Nr. Schul- nummer Schulname **Straße** PLZ Ort Telefon Fax Schulart Webseite
1 0401 **Mädchenrealschule** Marienburg, Abenberg, der **Diözese** Eichstätt Marienburg 1 91183 Abenberg  09178/509210  Realschulen  mrs-marienburg.homepage.t-online.de 
2 6581 Volksschule Abenberg (Grundschule) **Güssübelstr**. 2 91183 Abenberg 

以粗体显示一些更正....

那么我们如何重写正则表达式以解决特殊字符的问题......?

这里有任何暗示.......?

顺便看到代码:

sub processData() {
   while ( $range <= $total_records) {
      getstore("$url_to_process$suchbegriffe&a=$treffer&s=$range", 'processing.html') or die 'Unable to get page';
      $te->parse_file('processing.html');
      my ($table) = $te->tables;
      for my $row ( $table->rows ) {
         cleanup(@$row);
         print OUTFILE "@$row\n";
      }
      $| = 1;  
      print "Processed records $range to $counter";
      print "\r";
      $counter = $counter + 50;
      $range = $range + 50;
      $te = HTML::TableExtract->new;
   }
}

sub cleanup() {
   for ( @_ ) {
      s/\s+/ /g;
   }
}

2 个答案:

答案 0 :(得分:1)

这与正则表达式无关。问题是您有编码问题。将所有内容规范化为UTF-8,您将会更加快乐。

为了善良,使用POSIX语言环境!使用UCA。

答案 1 :(得分:0)

问题不明确,因为除了cleanup()中的替换外,我的代码中没有正则表达式。这是你认为导致问题的原因吗?被破坏的“特殊”德语字符与\ s模式不匹配,我非常怀疑这是否是罪魁祸首。

您的数据以UTF-8编码 - 包括输入和输出。但是输出文本用EF BF BD代替各种双字节字符,Unicode U + FFFD或'REPLACEMENT CHARACTER'是UTF-8。只要您以UTF-8打开所有文件,一切都应该很好。我不相信你计划的一个简单的use encoding 'UTF8'无法治愈。