通过php curl抓取内容

时间:2011-11-02 09:13:49

标签: php curl screen-scraping web-scraping

我试图使用php curl开发内容抓取器,我需要从URL中检索内容,例如:http://mashable.com/2011/10/31/google-reader-backlash-sharebros-petition/并将其存储在csv文件中。例如:如果我输入一个url来提取数据,它应该在csv中存储标题,内容,标签,然后存储下一个url。他们的任何片段都是这样吗?

以下代码生成所有内容,我需要专门调用标题,帖子的内容

<?php
$homepage = file_get_contents('http://mashable.com/2011/10/28/occupy-wall-street-donations/');
echo strip_tags($homepage);
?>

1 个答案:

答案 0 :(得分:1)

有很多方法。事实上,您想要解析HTML文件。 strip_tags是一种方式,但是很脏。

我建议您使用DOMDocument类(so.com上应该有很多其他方法)。其余的是标准的php,在CSV上编写和阅读已经在php.net上详细记录了

获取网站链接的示例(不是我): http://php.net/manual/en/class.domdocument.php#95894