php - 大量的页面刮不到麻烦

大量的页面刮不到麻烦

时间：2011-11-03 00:31:34

标签： php curl web-scraping file-get-contents

我正在尝试从两级网站获取数据。第一级包含几千个到二级的链接。我发现只有当我一次只能抓到一个顶级页面时它才有用。当我尝试一次刮掉更多时，我会在运行约40分钟后收到错误消息。我尝试了file_get_contents ()和curl_exec ()两个函数，但它们都没有能够处理任务。后一种方法曾经甚至无法完成一项任务。看起来脚本导致内存溢出。有没有更好的方法来完成这项工作？

1 个答案:

答案 0 :(得分：1)

500内部服务器错误意味着它是服务器问题，而不是客户端问题。它甚至可能是一种故意的反机器人服务器策略来防止这种刮擦，尽管它在40分钟内正常工作的事实使得它看起来更像是在管理不善的服务器上的服务器容量问题。如果是这种情况，那么降低请求率将是解决方案。

从python中的大量数据中提取任何看起来像链接的东西
大量的页面刮不到麻烦
使用curl来抓取大页面
PHP Dom刮取大量数据
将大量异构数据刮取到结构化数据集中
如何用Python有效地分析大量网页？
使用网址抓取大量Google学术搜索网页
无法抓取遍历多个页面的数据
我应该使用Pages或DataObjects进行大量输入吗？
Jquery数据表的页数

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？