Question

我的网站格式如下：

http://www.domain.com/membership/member_zoom.php?value

值从1000开始并在15,000左右停止

以下是来源的示例：

<h1>Member Information</h1>


<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:email@email.com">email@email.com</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>

所以，我需要抓住会员信息和最后一个div标签之间的所有内容，然后递增ID值1，重复。但是，有很多死ID。我的刮刀只是锤击现场，增加一次再击中它。有没有更简单的方法？或许可以通过某种方式建立故障保险？

Answer 1

在您尝试加载ID并查看是否存在之前，无法判断ID是否存在。您需要找到链接列表，或从站点的其他部分刮取成员ID。如果你不能这样做，你只需要尝试每一个。

Answer 2

提出HEAD请求。跳过404并用好的GET做。忘记读取（1024），这会浪费你的带宽和他们的带宽。

使用增量ID抓取站点

2 个答案: