如何使用WWW :: Mechanize获取与正则表达式匹配的链接?

时间:2010-07-07 21:33:42

标签: perl www-mechanize

我正在尝试使用正则表达式来捕获链接,但不能。 我有所有链接,但有许多链接不需要。

我所做的就是抓住所有链接: http://valeptr.com/scripts/runner.php?IM= 遵守这种模式。

我把我正在做的脚本:

use warnings;
use strict;
use WWW::Mechanize;
use WWW::Mechanize::Sleepy;

my $Explorador =

    WWW::Mechanize->new(

       agent =>
             'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.4) Gecko/20030624',

       sleep => '5..20'
    );

#Proceed to access the URL to find all the links in emails
$Explorador->get("file:/home/alejandro/Escritorio/hehe.php.html");

#If you want debug DOM Document.
#print $Explorador->content();

my @links = $Explorador->links;

foreach my $link (@links) {

   # Retrieve the link URL like:
   # http://valeptr.com/scripts/runner.php?IM=0cdb7d48110375.
   my $href = $link->url;

   foreach my $s ($href) { #Aqui la expresión regular

       my @links = $s =~ qr{
                               (
                               [^B]*
                               )
                               $
                           }x;
       foreach (@links) {
           print "\n",$_;
       }
   }
} 

PS:我猜这个正则表达式会比看到的还要多,但看不到。如果是这样,我会回来发一篇文章。

问题:  有一堆链接,我需要使用与老板过期的链接:  Http: // valeptr.com/scripts/runner.php?IM=  对于它在第19行,我必须应用表达式调节。  这个变量my @ links = $ Explorador->链接;他返回所有存在的链接。  但是我只想知道我上面提到的链接。 此致

2 个答案:

答案 0 :(得分:6)

为什么不让WWW::Mechanize为您完成工作,特别是当它可以通过提供的正则表达式为您过滤掉链接时?

my @wanted_links = $Explorador->find_all_links ( 
                                     url_regex => qr{scripts/runner\.php\?IM=}
                                );

没有for循环!

答案 1 :(得分:0)

由于您的参考链接似乎已修复,您可以考虑使用substr而不是regex

$ref_link = q!http://valeptr.com/scripts/runner.php?IM=!;
foreach my $link ( $Explorador->links ) {
    my $href = $link->url;
    if ( substr($href, 0, length($ref_link)) eq $ref_link ) {
        push @save, $href;
    }
}