如何重新爬网具有错误状态的文档

时间:2015-07-09 18:57:18

标签: google-search-appliance

我们昨天遇到了一个问题,导致gsa抓取工具无法登录我们的网站进行抓取。因此,许多URL都被索引为登录页面。我在搜索页面上看到很多结果标题为"请登录" (登录页面的标题)。此外,当我检查索引诊断时,这些网址的抓取状态为" Retrying URL: Connection reset by peer during fetch."。

现在登录问题已解决,一旦页面被重新抓取,抓取状态就会成功,它正在拾取页面内容,搜索结果会显示正确的标题..但是因为我无法控制什么是被抓取的页面仍然没有被重新抓取,但仍然存在问题。

我没有统一的网址可以强行重新抓取。因此我的问题是: 有没有办法根据抓取状态强制重新抓取(" Retrying URL: Connection reset by peer during fetch.")?如果是具体如何基于抓取状态类型(Errors/Successful/Excluded)重新抓取?

2 个答案:

答案 0 :(得分:2)

  1. 使用"索引>将所有错误网址导出为csv文件诊断> 索引诊断"

  2. 打开CSV并在抓取状态列上应用过滤器并获取网址     你正在寻找的错误。

  3. 复制这些网址并转到"内容来源>网页抓取>新鲜     调整>重新抓取这些网址格式"并粘贴并单击Recrawl

  4. 那就是它。你完成了!

    PS:如果错误网址更多(> 10000,如果我没有错),您可能无法在单个csv文件中获取所有这些错误。在这种情况下,您可以分批进行。

    此致

    莫汉

答案 1 :(得分:1)

您可以使用它来提交一批用于重新抓取的网址: https://github.com/google/gsa-admin-toolkit/blob/master/interactive-feed-client.html

我已经一次批量测试了80K。