使用正则表达式从网站中提取内容

时间:2013-01-10 14:10:35

标签: xml regex preg-match

嗨,我只是试图获得正常表达式的悬念,我试图从这个网站中提取内容,但我认为我的regexp有问题,因为我无法向数组中添加任何内容。 任何人都可以指出我正确的方向,我认为它只是一些小的。

由于

<?php   
    $f1 = fopen("http://www.irishexaminer.com/","r");
    $document = fread($f1,100000);
    fclose($f1);
    $regexp = "%<p>(.+)</p><p>%";
    preg_match($regexp,$document,$getHeading);  
    echo "<br>" . $getHeading[1];
    echo '<pre>';
    print_r($getHeading);
    echo '</pre>';
?>

1 个答案:

答案 0 :(得分:1)

在你的情况下,p的结束标记中没有任何借口可以使用空格。

<p> THERE is no excuse for loyalist violence on the streets of Belfast.<p /><p>

正则表达式匹配

%<p>(.+)</\s*p><p>%

为HTML制作一个足够有弹性的正则表达式需要一段时间。接受Frankies的建议。将你的努力归功于不太容易失败的事情。您可以使用PHP HTML Tidy