Drupal和Google Search Appliance(Google Mini)

时间:2009-11-20 16:10:09

标签: search drupal google-search-appliance drupal-5

我有一个Drupal网站,其网页由Google Mini搜索设备编制索引。

本周早些时候,我注意到一堆链接被标记为已编入索引,但被排除在外,因为有一个“打印此页面”链接回到同一页面并且有一个rel =“nofollow”。我把nofollow拿出来让2天前GSA重新索引该网站。

现在,有问题的网页在GSA内被标记为已编入索引,但它们未显示在网站的搜索结果中。

我可以搜索/ search / google_appliance / TERM并且它们不会显示。当我搜索其他条款时,它们会显示出来。换句话说,我知道GSA正在发挥作用。

当我在/ search / node / TERM [Drupal默认搜索]中搜索时,我得到的Drupal结果不同[显示该术语的页面]。这让我非常肯定我正在打GSA。

关于为什么新索引页面没有出现在GSA搜索中的任何想法?

EDIT /解决: 有几个问题。以前,搜索使用xslt来处理它显示页面的方式,以及当您点击提交时在页面上发送查询的位置(在设备上,而不是网站上的提交按钮)。查询字符串以旧格式传递给网站,然后提供404(与您搜索bookstore.site.com和origin.site.com相同)。更多的是“无法从这里到达那里”的问题,而不是任何与搜索有关的问题。我删除了xslt,所以它只使用了默认的google外观,并让我们对设备的数据库进行了很好的通用搜索。

然而,仍然有一些奇怪的搜索结果回来,Drupal模块无法解析,并且日志被点击了simplexml_load_string()[function.simplexml-load-string]:^在\ sites \ all \ modules \第318行的google_appliance \ GoogleMini.php。

我尝试了一些查询字符串变量并注释掉设置输出编码的行,所有这些似乎都有效。 有问题的行位于第322行的google_appliance.module中:

$gm->setOutputEncoding('utf8');

2 个答案:

答案 0 :(得分:2)

我不是百分百肯定我的问题是对的。我在这里假设:

  1. 索引缺少的GSA是指链接“打印此页面”的页面(而不是假设这些页面已编入索引,问题在于索引此类页面的可打印版本)
  2. 以下位表示您可以找到包含其他字词的其他页面,而不是您可以使用其他字词搜索缺少的页面。< / LI>
      

    我可以搜索/ search / google_appliance / TERM并且它们不会显示。当我搜索其他条款时,它们会显示出来。换句话说,我知道GSA正在运作

    如果我误解了你的问题,请纠正我。如果我弄错了,请提供有关您正在使用的条款的更多详细信息。

    然而,我会为识别问题的根源做些什么(虽然我可能按照这个精确的顺序执行这些操作):

    1. 我会尝试理解触发奇怪行为的“坏页面”(如果有的话)的独特元素。看来你已经完成了一些挖掘,并认为罪魁祸首是打印链接。您是否通过完全删除链接验证了这一点,并查看在这种情况下页面是否正确编入索引?
    2. 我会检查robots.txt中是否有可能会影响索引的规则。 GSA尊重该文件,例如,如果您的网页的网址以{{1开头这些页面将被跳过。
    3. 我会检查我的网页是否有某种限制其视图的访问控制。如果是这种情况,我会检查GSA has been configured for that。 (当然,这同样适用于未发布的页面,您必须是管理员才能使用外部应用程序查看或索引它们。)
    4. 我不确定GSA是否使用/admin/来执行索引。但是我会检查drupal生成的sitemap.xml文件(如果有的话)以检查明显的错误,例如优先级设置为0。如果你没有这样的文件,并且知道GSA使用它,我会尝试生成一个with the appropriate module,看看这是否解决了这个问题。
    5. 我会 inspect the sitemap generated by GSA看看它是否显示任何明显的异常。这显然不是问题,但任何形式的不言自明的异常都可能使你走上正轨。
    6. 我的问题不是特定于页面结构(参见此列表的第1点)我将开始系统地搜索生成错误的非结构元素。是否有不同的主题解决了这个问题。停用给定模块是否可以解决问题? (也许问题在于元标记?也许是使用“打印此页面”模块?也许模块将这些页面的语言设置为与网站其他部分不同的语言?)。所有这些都是不太可能的可能性,但在用大锤粉碎GSA之前我也会尝试。
    7. 我会通过(可能是第N次)所有settings of my GSA
    8. 以上所有 - 如果我有机会 - 我会与同伴一起做。他或她可以帮助排除“人为因素”作为问题的根源(即配置面板中的小复选框对他/她来说是如此至关重要,但你以前从未注意过......)。

      如果您设法找到有关正在发生的事情的更多提示,请在此处报告。如果这是drupal方面的一个问题,我很确定我或其他人在SO上徘徊的优秀“drupalists”能够提供帮助。

      HTH!

答案 1 :(得分:0)

我最近在类似的事情上苦苦挣扎。

这里有一个建议 - 选择一个你知道有搜索词的页面。在浏览器中打开页面的HTML,确保您看到该术语。绝对肯定。

接下来,获取该URL并将其作为爬网中的起始页之一放入。

抓取后,进入“搜索诊断”并深入查看该页面。你看到它爬了吗?好的,好的,现在去看一下页面的缓存。 “链接到此页面”下面应该是一个名为“缓存版本”的超链接。看那个。你可能会感到惊讶!我当然是。