如何从网站获取所有网站链接?

时间:2015-09-15 07:09:26

标签: web web-crawler phpcrawl

我想获得网站上提供的所有链接(网络帖子)。而且,如果任何新帖子被添加到网站我应该能够得到链接。我将列出10个网站,并且需要定期运行链接提取过程。

有人可以帮助我如何只添加帖子链接和添加的新帖子链接。

1 个答案:

答案 0 :(得分:0)

我建议你写一个php脚本(因为你提到了php),它定期由cron-job调用。在脚本里面你可以

选项1:定义一个curl突击队,它会自动提取一个网址的所有内容。 (如果您必须使用post-method向网站提供一些信息,可能会更好。)

选项2:使用file_get_contents函数获取所有内容

您可以使用正则表达式解析这些结果,以提取您感兴趣的部分(例如搜索<div class=".post">...</div>之类的内容)。之后,您可以将信息添加到数据库中,或者只检查信息是否已经存在。