Question

我目前正在使用Perl脚本从QuakeLive网站收集数据。一切都很顺利，直到我无法得到一组数据。

我正在使用正则表达式，除了最喜欢的竞技场，武器和游戏类型之外，它们还可以用于所有事情。我只需要在$ 1中获得这三个元素的名称以便进一步处理。

我尝试重新制作收藏夹图片，但没有成功。如果它有用，我已经在脚本中使用了WWW :: Mechanize。

我认为问题可能与那些元素的段落的类名相关，而前一个是无类别的。

您可以找到示例个人资料HERE。

请注意，对于页面的上一部分，它使用的代码如下：

$content =~ /<b>Wins:<\/b> (.*?)<br \/>/;
$wins = $1;
print "Wins: $wins\n";

Answer 1

当前的问题是你有：

<p class="prf_faves">
<img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif" 
     width="17" height="17" alt="" class="fl fivepxhr" />
                <b>Arena:</b> Campgrounds
                <div class="cl"></div>
            </p>

也就是说，竞技场之类的收藏价值之后没有<br />。现在，正确的方法是使用正确的HTML解析器。脆弱的解决方案是调整你的模式（未经测试）：

my ($favarena) = $content =~ m{<b>Arena:</b> ([^<]+)};

这应该将所有内容都放到<中下一个<div>的{{1}}。现在，如果所有竞技场都是单个单词，但没有空格，

$favarena

可以节省您之后必须修剪空白的麻烦。

请注意，这种基于正则表达式的解决方案很容易被简单的事情所愚弄，例如源代码中注释掉的片段。例如，如果要将来源改为：

my ($favarena) = $content =~ m{<b>Arena:</b> (\S+)};

你的脚本会遇到麻烦，因为使用HTML解析器的解决方案不会。

使用HTML::TokeParser::Simple的示例：

<p class="prf_faves">
<img src="http://cdn.quakelive.com/web/2010092807/images/profile/none_v2010092807.0.gif" 
     width="17" height="17" alt="" class="fl fivepxhr" />
<!-- <b>Arena: </b> here -->
                <b>Arena:</b> Campgrounds
                <div class="cl"></div>
            </p>

输出：

Arena:  Campgrounds
Game Type:  Clan Arena
Weapon:  Rocket Launcher

以下是使用HTML::TreeBuilder的示例：

#!/usr/bin/perl

use strict; use warnings;

use HTML::TokeParser::Simple;

my $p = HTML::TokeParser::Simple->new( 'martianbuddy.html' );

while ( my $tag = $p->get_tag('p') ) {
    next unless $tag->is_start_tag;
    next unless defined (my $class = $tag->get_attr('class'));
    next unless grep { /^prf_faves\z/ } split ' ', $class;

    my $fav = $p->get_tag('b');
    my $type = $p->get_text('/b');
    my $value = $p->get_text('/p');
    $value =~ s/\s+\z//;

    print "$type = $value\n";
}

输出：

Arena: Campgrounds 
Game Type: Clan Arena 
Weapon: Rocket Launcher

鉴于该文档是一个HTML片段而不是一个完整的文档，您将在基于HTML::Parser的模块上获得更多成功，而不是那些希望在格式良好的XML文档上运行的模块。

Answer 2

对此特定任务使用正则表达式并不理想。有太多东西可能会改变，而你没有利用HTML页面的固有结构。您是否考虑过使用类似HTML::TreeBuilder的内容？它将允许您说“让我获得名为武器的表中第3个表格单元格的值”等等。

如何使用Perl可靠地解析QuakeLive播放器配置文件？

2 个答案: