应用错误收集

站点特定搜索引擎和网络爬虫的体系结构

时间：2015-03-06 19:15:34

标签： web-crawler search-engine

有人可以让我知道网站特定搜索引擎的架构，就像非常一般的答案一样，我不想要任何编码和其他东西作为理论。

我怀疑的第二个问题是：为了更快地抓取网页，您需要设置两个具有不同起始种子网址的不同抓取计算机。两台爬网计算机未设置为相互通信并共享数据。这是分布式网页抓取的有效策略吗？

1 个答案:

答案 0 :(得分：0)

首先，如果两台计算机之间没有连接，那么你如何处理多次记录相同的网页，你最好的方法是链接它们并在那里使用组合资源（你可能会找到一些免费的软件）要做到这一点，我不确定从我自己的经验）。其次，你的问题非常模糊，搜索引擎有三个主要部分，网页抓取，索引和数据库以及所有那些然后是前端，用户只看到前端，通常在php中就像你的平均网站一样。索引和数据库相关的东西是你在数据库中组织数据的地方，然后网络爬行是你收集数据的地方。在这个抽象层次上它真的非常简单，但如果没有更详细的问题，我们真的无法深入了解。