搜索bot检测

时间:2012-05-28 14:40:45

标签: web-scraping bots search-engine-bots

是否可以防止网站被任何抓取工具刮掉,但同时允许搜索引擎解析您的内容。

只检查用户代理不是最好的选择,因为它很容易模拟它们。

JavaScript检查可以是(Google执行JS)一个选项,但是一个好的解析器也可以这样做。

有什么想法吗?

2 个答案:

答案 0 :(得分:1)

检查链接访问时间是可能的,换句话说,如果首页被点击,那么首页上的链接都会“快速”点击。

更简单,删除页面中的一些隐藏链接;人们几乎永远不会这样做。

答案 1 :(得分:1)

使用DNS checking卢克! :)

  1. 检查用户代理以查看它是否将自己标识为搜索引擎机器人
  2. 如果是,请获取请求页面的IP地址
  3. 反向DNS查找IP地址以获取主机名
  4. 转发DNS查找主机名以获取IP地址
  5. Google提供的帮助文章Verifying Googlebot提供了同样的想法