如何获取页面内容

时间:2012-11-25 08:14:49

标签: php dom web-crawler

我正在尝试为我的网站制作最近的新闻功能。为此,我已经制作了一个网络爬虫,并且能够通过以下方式从页面收集链接

$dom = new domDocument;
@$dom->loadHTML(file_get_contents($url));
$dom->preserveWhiteSpaces = false;
$linksToStore = $dom->getElementsByTagName('a');

foreach($linksToStore as $tag){
    $links[$tag->getAttribute('href')]= $tag->childNodes->item(0)->nodeValue;
}

我如何从与特定域相关的链接指向的页面获取内容,在我的情况下是“医疗”?

1 个答案:

答案 0 :(得分:0)

使用此http://simplehtmldom.sourceforge.net/库从页面中提取内容。选择器与jQuery的工作方式相同,这使得提取内容非常有用和高效。

另外,请检查此http://davidwalsh.name/php-notifications了解更多信息