如何通过登录需要抓取网站 - example.com

时间:2011-02-04 12:55:46

标签: c# .net scrape

我尝试使用.net(Webclient,webrequest,响应等)屏蔽网站 我尝试过很多方法,但似乎没什么用。

我总是得到“请登录才能看到这个内容!”网站而不是 完整的拍卖信息:http://www.example.com/en/auctions/auto-details/107891/

我使用post方法发送登录数据

请帮忙

2 个答案:

答案 0 :(得分:2)

这是因为当您通过浏览器查看时,身份验证cookie将被发送到squiddlydoo.com,以便它知道您已登录(或其他)并向您显示内容。

webClient没有这样做 - 所以你没有登录。

你必须以某种方式捕获cookie(如果允许你这样做,你可以)并在提出请求时将其发送到标题中

答案 1 :(得分:0)

还有合理的抓取理由。例如,我们在Intranet上运行第三方Web应用程序。我需要为一些简单的任务制作一个快速API。它需要登录。 没有什么可腥的。我认为“Scraping”一词意味着对2台计算机之间真正合法的http交互的负面影响。 黑客代码所以编码是黑客?我曾为大型财富500强公司工作,并看到他们运行宏记录程序来批量访问旧的旧DOS应用程序中的信息。 有时会要求您创建快速API或在某些情况下创建唯一可能的API。