禁止页内URL抓取

时间:2015-02-20 18:29:42

标签: .htaccess web-crawler robots.txt google-crawlers

我想禁止所有机器人抓取特定类型的网页。我知道这可以通过robots.txt以及.htaccess来完成。但是,这些页面是根据用户的请求从数据库生成的。我在互联网上搜索过,无法得到一个好的答案。

我的链接如下:

http://www.my_website/some_controller/some_action/download?id=<encrypted_id>

有一个用户的视图页面,其中显示的所有数据都来自数据库,包括我之前提到的链接类型。我想隐藏机器人的链接,而不是整个页面。我怎么能这样做?

2 个答案:

答案 0 :(得分:2)

是否可以使用

生成页面
<meta name="robots" content="noindex">

在脑袋里?

答案 1 :(得分:0)

你无法隐藏机器人的东西但是可以将其用于其他流量,毕竟你如何区分机器人和常规流量...你不能没有某种类型的验证,比如你在盒子里输入的单词的图片。 Robots.txt不会停止机器人,大多数机器人会看着它,这将阻止他们自己的选择,但这只是因为他们被编程这样做。他们不必这样做,因此如果他们希望可以完全忽略robots.txt。