站点特定搜索引擎和网络爬虫的体系结构

时间:2015-03-06 19:15:34

标签: web-crawler search-engine

有人可以让我知道网站特定搜索引擎的架构,就像非常一般的答案一样,我不想要任何编码和其他东西作为理论。

我怀疑的第二个问题是:为了更快地抓取网页,您需要设置两个具有不同起始种子网址的不同抓取计算机。两台爬网计算机未设置为相互通信并共享数据。这是分布式网页抓取的有效策略吗?

1 个答案:

答案 0 :(得分:0)

首先,如果两台计算机之间没有连接,那么你如何处理多次记录相同的网页,你最好的方法是链接它们并在那里使用组合资源(你可能会找到一些免费的软件)要做到这一点,我不确定从我自己的经验)。 其次,你的问题非常模糊,搜索引擎有三个主要部分,网页抓取,索引和数据库以及所有那些然后是前端,用户只看到前端,通常在php中就像你的平均网站一样。索引和数据库相关的东西是你在数据库中组织数据的地方,然后网络爬行是你收集数据的地方。在这个抽象层次上它真的非常简单,但如果没有更详细的问题,我们真的无法深入了解。