建议使用Django构建搜索引擎

时间:2011-01-07 15:05:32

标签: django search-engine nutch scrapy

我是网络抓取新手。我将构建一个搜索引擎,爬虫可以保存Rapidshare链接,包括Rapidshare链接找到的URL ......

换句话说,我打算建立一个类似于filestube.com

的网站

经过一番搜索,我发现Scrapy可以与Django一起使用。我试图找到与Django的nutch集成,但没有找到任何东西

我希望你能给我建议建立这种网站...特别是爬虫

2 个答案:

答案 0 :(得分:7)

最着名的可插拔应用是Django-Haystack,它允许您连接到多个搜索后端:

  • Solr / Lucene符合流行语的Apache基础项目
  • Whoosh本地python搜索库
  • Xapian另一个非常好的语义搜索引擎

haystack允许您使用看似Django自己的Queryset语法的API直接使用这些搜索引擎(所有搜索引擎都有自己的API和方言)。

如果你在抓取工具之后就是juste ,无论你使用什么工具:BeautifulSoup或Scrappy,你都可以自己编写python代码来解析你的内容想要解析,然后填充你的django模型 这甚至可以是单独的python脚本,可以在commands.py模块中找到。

如果您要搜索大量文件,则可能需要一个索引,该索引经常重建并允许快速搜索而无需点击django ORM。
使用Solr索引(例如)使您可以即时创建其他字段,例如基于真实模型字段的虚拟字段(例如:拆分作者名字和姓氏,添加大写文件标题字段,等等)

当然,如果您不需要快速索引,关键字提升或语义分析,您仍然可以在几个django模型字段上进行经典的全文搜索i:

答案 1 :(得分:1)

您检查了DjangoItem吗?这是一个实验性的Scrapy功能,但它已知工作