如何从多个国家/地区抓取网站?

时间:2012-10-09 19:34:12

标签: web-crawler

我在美国,根据访问国家/地区对网站进行轻量级抓取,提供不同版本。

从多个国家/地区抓取的最佳方式是什么?是否有代理服务我可以通过我的http请求路由?或者我是否需要在每个国家/地区租用轻量级虚拟机并安装我自己的代理服务器?

2 个答案:

答案 0 :(得分:0)

我使用这个卷曲,如果你的主要编程语言是php,你可以在你的服务器上这样做:

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_PROXY, '195.175.37.72:80')
echo curl_exec($ch);

在互联网上,许多免费代理服务器都使用谷歌。有些人会为您提供代理服务,但他们的服务更好。当然,你可以在其他国家购买机器,但我这样做的方式更便宜,更容易。

答案 1 :(得分:0)

您可以使用像www.hidemyass.com这样的免费网络代理 - 但不要期望太多。

还有一些免费和公共代理,只需使用您选择的搜索引擎即可找到它们。 (或者看这里http://www.hidemyass.com/proxy-list/

或者使用TOR(虽然我不确定您是否可以选择特定的退出节点)。

如果您真的考虑租用虚拟机,您还可以使用专业代理服务(这意味着更多带宽等)。