从站点抓取链接

时间:2015-05-19 07:34:33

标签: c# web-crawler

我有一个问题。我想从一个站点抓取链接(示例:www.x.com/date/counter of news)。 现在,我的解决方案是:

1-我有最新链接,存储在我的数据库中,如下所示:
www.x.com/2015/01/13/99901

2-我从网站获得最新链接,如下所示:
www.x.com/2015/01/12/99905

3-我希望在 99901~9905 之间循环以生成上述两个链接之间的链接,如下所示:

www.x.com/2015/01/12/99901
www.x.com/2015/01/_( I don't know this day is /12 or /13 )_/99902
www.x.com/2015/01/_( I don't know this day is /12 or /13 )_/99903
www.x.com/2015/01/_( I don't know this day is /12 or /13 )_/99904
www.x.com/2015/01/13/99905

现在,我知道当日期改变了吗?!!

1 个答案:

答案 0 :(得分:0)

您应该首先检查对不存在的页面的响应(例如01/12/99999)。然后你应该用#34;第一个"一天,检查响应,如果得到相同的响应,添加1天,然后重复,直到收到预期的响应。