typo3网站抓取工具没有索引

时间:2016-01-17 14:50:54

标签: php indexing web-crawler typo3 typo3-4.5

我想在一个旧的TYPO3 4.5网站上用索引搜索和sitecrawler索引一个页面 - 但我几乎尝试过任何事都无济于事。

我正在运行网站抓取工具,它将获得可以抓取的完整网址列表,并且我正在整个队列中运行

enter image description here

我已经设置了“索引配置”

enter image description here

和网站抓取工具

enter image description here

但它不会索引

enter image description here

“cache_pages”表似乎也是空的 - 但是对所有页面都启用了缓存。

我能错过什么?

2 个答案:

答案 0 :(得分:2)

显示抓取程序队列的屏幕截图看起来不错。似乎爬虫已正确配置,但索引搜索未对页面编制索引。 空页面缓存建议您禁用缓存shomehow。

索引搜索是在满足几个条件时索引页面:

  1. 页面可缓存(TypoScript中没有page.config.no_cache = 1,页面属性中未禁用缓存,并且未从PHP代码禁用缓存)
  2. 源代码<!--TYPO3SEARCH_begin--><!-- TYPO3SEARCH_end-->
  3. 中有特殊标记
  4. 设置了TypoScript page.config.index_enable = 1
  5. 访问该页面的用户未登录到Backend或Crawler
  6. 您可以检查的是:

    • 请在TypoScript对象浏览器中验证index_enable和no_cache值是否具有未编入索引的页面的正确值。
    • 在Extension Manager中启用Crawler和Indexed搜索的调试模式
    • 点击&#34;队列ID&#34;中的号码某些非索引页面的列,并检查那里显示的数据。
    • 仔细检查&#34;会话ID&#34;在开始编制索引之前,索引搜索配置记录中的字段为空
    • 从&#34;下一个索引日期&#34;中删除日期索引搜索配置记录中的字段

    几个有用的链接:

答案 1 :(得分:0)

如果Tymoteusz建议都不起作用,请检查您是否以https模式运行您的网站,并使用自签名证书(例如,如果您在本地计算机上进行开发)。如果是这种情况,只需在没有https的情况下运行您的网站,然后重新测试抓取工具。我最近测试了一个TYPO3 6.2网站,其中爬虫和indexed_search配置正确,页面从未编入索引。我在crawlerlog中收到的错误是一条空的错误消息,在数据库中,tx_crawler_queue表显示了值b:0;在列&#34; result_data&#34;中。 一旦我转到http,一切工作都很好。

在生产中,只要您使用有效的证书,它就可以正常使用https。