解析谷歌的搜索结果

时间:2011-03-30 06:58:35

标签: perl data-mining google-search-api

我正在“处理”数据挖掘项目,我选择解析Google搜索结果。在我真正开始之前,我想咨询你 - 有经验的人。 我对Google如何提供结果进行了一些研究,并分析了结果页面的结构。这一切都没问题,我已经找到了我将使用的正则表达式和数据结构。

在我之间遇到他们的 CAPTCHA 因为我搜索得太快了;哦,具有讽刺意味。我还发现他们实际上将结果限制为1000。现在,有什么方法可以避免这些限制,可能会降低 url 获取解决第一个或报告遇到 CAPTCHA 时的速度,以便等待我的输入;可能会这样做,但另一个呢? Google是否提供某种可用于解决方法的API?我在他们的代码上找不到一个。*页面。

2 个答案:

答案 0 :(得分:9)

Custom Search API

它以json或XML返回结果,因此您甚至不需要使用正则表达式。但是,您确实需要每天支付超过100次搜索。

你到底想要做什么?也许有更好的方法来实现它。

答案 1 :(得分:4)

首先要关注CPAN!

https://metacpan.org/pod/REST::Google

如果某人还没有解决你的问题,很可能是一个奇怪的问题: - )