从其他网站导入/抓取页面内容?

时间:2011-05-09 22:02:18

标签: php parsing web-scraping

我一直在玩php和http://www.alchemyapi.com/,以及嵌入式 但我想知道是否有其他选项可以导入和解析网页,任何页面,无论是新闻网站还是博客......

感谢

2 个答案:

答案 0 :(得分:2)

要获取数据:curlfile_get_contents(可能是其他两种常见数据)

要解析数据:PHP: DOMSimpleXML preg_match **

由于它是用PHP标记的,我只提供了PHP的工作信息。有很多方法可以做到这一点,如果你可以将你的问题缩小到你想要做的事情会有所帮助。解析任何站点的更好方法是通过他们的RSS源,如果他们有一个,或通过他们的API,推测他们通过RSS / API提供你想要的内容。


** preg_match不是一个很好的选择它“工作”,但如果可能的话,最好使用DOM / Simple XML函数。

答案 1 :(得分:1)

我使用cURLpreg_match

在工作中编写了一个抓取工具

在我选择这样做之前,我查看了DOM Parsers http://php.net/manual/en/book.dom.php