Nutch到底是什么?

时间:2010-12-16 19:21:35

标签: search-engine nutch

我要制作自己的搜索引擎。

在搜索搜索引擎,抓取工具等时,我对Nutch感到困惑。

我不明白Nutch是什么。是供内部使用,如Lucene(如果我错了,请纠正我)或创建搜索引擎的框架(例如:google,bing,yahoo)?

2 个答案:

答案 0 :(得分:2)

Nutch是一个功能齐全的搜索引擎 - 它可以抓取外部网站,它理解并尊重robots.txt。

http://nutch.apache.org/about.html

  

概述Nutch是开源的   网络搜索软件。它建立在   Lucene和Solr,添加了网络细节,   例如爬虫,链接图   数据库,HTML和其他解析器   文件格式等。

     

Nutch可以在一台机器上运行,但是   从中获得了很多力量   在Hadoop集群中运行

     

可以增强系统(例如其他   使用可以解析文档格式   一个插件机制。

     

有关Nutch的更多信息,   请看Nutch wiki。

答案 1 :(得分:0)

Nutch是一个现成的,可配置的网络爬虫,带有用于执行搜索的Java Servlet。如果你想把它作为一个项目,Nutch可能会做太多,因为剩下的就是创建用于输入搜索和显示结果的页面。

相关问题