Question

我正在一个RAILS项目中，在Amazon S3上举办的每个活动都有不同的PDF手册，当前可以通过每个活动页面上的链接访问这些手册。我的问题是这些pdf在google上建立了索引，我不介意，只要它们告诉google它们是指向我活动页面的规范链接即可。基本上，我更喜欢使用我的pdf所获得的搜索命中并将它们重定向到该事件的页面（与之相反，它们被Google抓取工具阻止或仅获得无数的pdf链接索引）。

我什至想知道这是否完全可行，因为pdf是从S3提供的，并且我无法更改其http标头。

我在使用link_to helper时无济于事，我认为应该可以告诉爬虫其所链接的链接与其所在页面的规范相关。

我也尝试过使用robots.txt阻止pdf，并且链接nofollow，但是Google确实在搜索控制台中对它们进行了索引，尽管它说了“已被robots.txt阻止，但已被索引”。

当前在页面上：

<%= link_to "Download the brochure",
            @event.brochure_url(priority_code: @priority_code),
            target: "_blank", class: "button blue" %>

Answer 1

尝试将rel：“规范”添加到link_to帮助器

Answer 2

Google将rel = canonical用于具有不同URL但内容几乎相同的页面。试图使仅具有相似文本和内容（但不完全相同）的PDF页面规范为HTML页面基本上是没有意义的。

我最终决定通过带有noindex指令的HTML页面通过HTML页面为机器人/抓取工具提供这些PDF来解决问题。

您将如何在您的网站上建立一个规范的pdf链接（在您的网站上）？

2 个答案: