使用增量ID抓取站点

时间:2012-08-16 15:55:34

标签: python screen-scraping beautifulsoup

我的网站格式如下:

http://www.domain.com/membership/member_zoom.php?value

值从1000开始并在15,000左右停止

以下是来源的示例:

<h1>Member Information</h1>


<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:email@email.com">email@email.com</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>

所以,我需要抓住会员信息和最后一个div标签之间的所有内容,然后递增ID值1,重复。但是,有很多死ID。我的刮刀只是锤击现场,增加一次再击中它。有没有更简单的方法?或许可以通过某种方式建立故障保险?

2 个答案:

答案 0 :(得分:2)

在您尝试加载ID并查看是否存在之前,无法判断ID是否存在。您需要找到链接列表,或从站点的其他部分刮取成员ID。如果你不能这样做,你只需要尝试每一个。

答案 1 :(得分:0)

提出HEAD请求。跳过404并用好的GET做。忘记读取(1024),这会浪费你的带宽和他们的带宽。

相关问题