用于导入CMS的索引网站

时间:2010-11-09 15:51:19

标签: php sphinx

我需要将网站迁移到新的CMS。除http://mysite.com外,我们无法访问原始网站。 我们目前有各种各样的脚本i)。索引网站和ii)。创建一些层次结构和iii)。刮掉独特的内容(即忽略页眉/页脚/模板等)。 除了索引网站之外,脚本实际上工作得非常好。是否有一个很好的实用程序可以索引站点的所有唯一URL。

目前我们使用

的混合物
$oHTML = new simple_html_dom();
$oHTML->setBody(file_get_contents('http://mysite.com'));
foreach($oHTML->find('a') as $oLink) {}

和一个用于命中所有唯一链接的递归函数...

问题是...... PHP很慢并且快速达到内存限制......这是正确的做法吗?我可以使用sphinx或开源搜索引擎或其他东西为我做这件事......

1 个答案:

答案 0 :(得分:0)

  1. 使用wget抓取网站,并归档到本地磁盘
  2. 完成后,查找所有文件(假设为* .htm),执行strip_html_tags,并插入数据库中
  3. 然后使用sphinx pecl库来编制索引sphinx::buildExcerpts
  4. 或者,在步骤2之后 只需为sphinx re-index

    运行索引器