如何使用PHPCrawl从站点检索特定数据

时间:2013-12-31 13:39:33

标签: php html web-crawler phpcrawl

我正在使用PHPCrawl作为我希望从中接收数据的网站,但我不知道从哪里开始检索(例如)具有特定类的跨度。

每个例子我想从这个范围中检索名称“Jan”:

 <span class="firstname">Jan</span>

我尝试过使用DOMDocument()和DOMXPath()但是在加载html字符串时出错。

所以这就是我到目前为止所做的:

 $doc = new DOMDocument();
 $doc->loadHTML($PageInfo->content);
 $xpath = new DOMXPath($doc);

 foreach ($xpath->query("//span[@class='family-name']") as $node) {
     echo "Family name: " . $node . "\n";
 }

但是使用它会产生如下错误:

PHP Notice:  DOMDocument::loadHTML(): Namespace prefix g is not defined in Entity, line: 294 in /var/www/crawl/www/crawl.php on line 30
PHP Warning:  DOMDocument::loadHTML(): Tag g:plusone invalid in Entity, line: 294 in /var/www/crawl/www/crawl.php on line 30

由于我无法更改html代码(这是由PHPCrawl提取的),我需要做其他事情。但是我不知道是什么。 PHPCrawl本身有没有这样做的工具?

0 个答案:

没有答案