如何为Web爬网程序设置有效的cron作业

时间:2012-09-26 15:40:13

标签: php web-crawler cron-task

我编写了一个php网络抓取工具来索引仅180个特定来源的内容,但每页平均需要2秒才能分析,抓取并保存我想要的内容:图片,网址,标题,完整内容,摘录,标签。 (有几种算法可以分析所有元标记以获得正确的数据)

我只抓取最新的9篇文章页面,因此每个来源需要18-25秒。

我创建了10个不同的cron作业(它们之间有6分钟),因此每个作业可以处理18个来源(大约350秒)。

这似乎非常低效,特别是如果我想要达到1k来源。我应该修改什么?

ps:我在共享主机上测试它,专用服务器会大幅减少时间吗?

cron的工作就像:

lynx -auth用户名:密码website.com/crawler.php?group=1

lynx -auth用户名:密码website.com/crawler.php?group=2

lynx -auth用户名:密码website.com/crawler.php?group=3 等

并且爬虫脚本从数据库访问18个来源,获取最新的9个文章页面并抓取内容,进行分析并根据结果将其存储在数据库中。

1 个答案:

答案 0 :(得分:1)

老实说,不要为此使用cron作业。设置一个守护进程,它将一直运行。重生,如果它崩溃等等。

http://pear.php.net/package/System_Daemon

相关问题