web-crawler - 抓取网站会返回错误数据 - Thinbug

抓取网站会返回错误数据

时间：2012-10-19 15:48:29

标签： web-crawler rapidminer

我正在使用快速挖掘器从特定数据中抓取网站。问题是，如果我尝试经常抓取网站，它会提供不良数据。

如果我从其他IP地址看到相同的数据，则会显示与我在不同IP地址上抓取的数据不同的数据。

有没有解决方法来解决这个问题？

1 个答案:

答案 0 :(得分：0)

今天的许多网站，特别是值得挖掘的网站（即：链接）使用复杂的方法来检测和阻止除了与他们达成协议的少数大型搜索引擎之外的所有搜索引擎。

尝试更改您发送的浏览器代码，以及在一组计算机而不是一台计算机之间分配爬网。在AWS上运行一堆微实例比一个大型实例更可取。另外，请确保在请求之间设置延迟，因为这既考虑周到，又有助于伪装您的抓取工具。