大量的页面刮不到麻烦

时间:2011-11-03 00:31:34

标签: php curl web-scraping file-get-contents

我正在尝试从两级网站获取数据。第一级包含几千个到二级的链接。我发现只有当我一次只能抓到一个顶级页面时它才有用。当我尝试一次刮掉更多时,我会在运行约40分钟后收到错误消息。 我尝试了file_get_contents ()curl_exec ()两个函数,但它们都没有能够处理任务。后一种方法曾经甚至无法完成一项任务。看起来脚本导致内存溢出。有没有更好的方法来完成这项工作?

1 个答案:

答案 0 :(得分:1)

500内部服务器错误意味着它是服务器问题,而不是客户端问题。它甚至可能是一种故意的反机器人服务器策略来防止这种刮擦,尽管它在40分钟内正常工作的事实使得它看起来更像是在管理不善的服务器上的服务器容量问题。如果是这种情况,那么降低请求率将是解决方案。

相关问题