Question

我试图使用php curl开发内容抓取器，我需要从URL中检索内容，例如：http://mashable.com/2011/10/31/google-reader-backlash-sharebros-petition/并将其存储在csv文件中。例如：如果我输入一个url来提取数据，它应该在csv中存储标题，内容，标签，然后存储下一个url。他们的任何片段都是这样吗？

以下代码生成所有内容，我需要专门调用标题，帖子的内容

<?php
$homepage = file_get_contents('http://mashable.com/2011/10/28/occupy-wall-street-donations/');
echo strip_tags($homepage);
?>

Answer 1

有很多方法。事实上，您想要解析HTML文件。 strip_tags是一种方式，但是很脏。

我建议您使用DOMDocument类（so.com上应该有很多其他方法）。其余的是标准的php，在CSV上编写和阅读已经在php.net上详细记录了

获取网站链接的示例（不是我）： http://php.net/manual/en/class.domdocument.php#95894

通过php curl抓取内容

1 个答案: