我应该如何了解搜索引擎抓取?

时间:2010-03-01 18:54:12

标签: search-engine web-crawler

我不是指SEO的事情。我该怎么知道如

  1. 引擎运行javascript吗?
  2. 他们使用cookies吗?
  3. Cookie会携带爬网会话(例如今天的Cookie和下周或月份的抓取)。
  4. 选择的JS过滤器是否因任何原因未加载? (例如因优化原因而被忽略的可疑广告?)
  5. 我不想意外地让所有索引页面都说出某种错误或警告信息,比如请打开你的cookie,不支持浏览器,或者不要编入索引,因为我做了一些愚蠢的事情,例如让我的站点地图指向{ {1}}然后没有索引,因为它是重定向(但我会使用301)。

1 个答案:

答案 0 :(得分:4)

从这里开始:http://www.google.com/support/webmasters/bin/answer.py?answer=35769

使用Lynx等文本浏览器来检查您的网站,因为大多数搜索引擎蜘蛛都会像Lynx一样看到您的网站。如果JavaScript,Cookie,会话ID,框架,DHTML或Flash等奇特功能使您无法在文本浏览器中查看所有网站,则搜索引擎蜘蛛可能无法抓取您的网站。

阅读Google's Webmaster guidelines