子文件夹未正确爬网的问题

时间:2015-09-11 21:34:31

标签: google-search-appliance

我的某个网站上有几个文件夹存在问题。有一个名为Publications_A的文件夹和一个名为Publications_B的文件夹。在每个文件夹中都有一些子文件夹(基本上是过去几年的存档文件夹),索引页面以及索引页面上显示的一些文档。

问题1:GSA在Pub A文件夹中抓取一堆文件,这些文件会抛出一个" not found"错误。这是真的,因为那些文件甚至不存在。它们实际上位于其中一个子文件夹中。即使在重置索引后,这些仍然会在这里显示出来。

问题2:主文件夹中显示的文档未显示在它们实际所在的子文件夹中!我不明白。在其中一个子文件夹(名为2014)中,GSA只提取了5个文档,即使实际上有10个文档。即使我向GSA提供了这些丢失文档的完整路径,它也不会为它们编制索引。它们都是PDF文档,并且在2014文件夹的index.asp文件中有指向它们的链接。我已经检查过,其中任何一个都没有机器人无抓取标签。

我已经玩了好几个小时,并且无法解决这个问题。有人有什么想法吗?

3 个答案:

答案 0 :(得分:0)

我会使用实时诊断来尝试获取其中一个“缺失”的文档,看看你是否得到了“200”的响应。

显示的页面不应该归因于其他内容中的“相对”链接。例如,PDF文档内部可能包含非完全限定的URL链接,这可能导致GSA抓取实际不存在的链接。

确保您的索引页面列出了您要抓取的所有内容。

答案 1 :(得分:0)

问题1:如果其抓取的文件夹不存在 - 那么您将跟随路径设置在更高级别 - 这将跟随任何子文件夹。

修复:更改关注路径/添加不遵循路径 此外,正如Terry Chambers所述...如果你的跟随和不遵循路径被正确列出,那么你的页面内容将有一个"链接" (以某种方式)到不需要的内容(为A或B显示的子文件夹)。

如果文件夹A有一个将你带到文件夹B的链接 - 那么它会抓取并将其编入索引。 删除链接以避免不良后果。

希望这有帮助。

答案 2 :(得分:0)

“问题2:主文件夹中显示的文档没有显示在它们实际所在的子文件夹中!我没有得到它。在其中一个子文件夹(名为2014)中GSA只收集了5个文档,即使实际上有10个文档。即使我向GSA提供了这些丢失文档的完整路径,也没有索引它们。它们都是PDF文档,里面有链接2014年文件夹中的index.asp文件。我已经检查过,其中任何一个都没有机器人无抓取标签。“

如果内容不是“可选择的”,或者换句话说图像是“平面”,PDF文档可能会出现抓取/索引问题

您还可以尝试在文档,图像类型文件等中嵌入页脚/标题(内部或HTML)。这样可以对这些文档进行爬网和编制索引。

希望这有帮助。

相关问题