web-crawler - webcrawler分析找到的页面

我写了一个simle webcrawler。我拿了所有的网站，但他们在我的硬盘上。现在我想分析它们，所以我可以编写一个像www.google.de这样的简单界面，并在我提取的页面中搜索信息。

问题是如何以“快速”方式找出重要信息。所以计算很重要。它可以是实时的或在获取之后。我的想法是写一个带有英文单词列表的dictonary并计算一下...或者该怎么办？我需要讲授如何提取信息并压缩它们。但我不知道在哪里看。

抓取工具基于带有mysql的c ++，其中存储了链接。

我希望我的问题很清楚。：d

顺便说一下，我的英语不好，但是德国有这样的董事会：P

信息检索科学（IR）是一个复杂的科学。

你看过任何标准文本了吗？像：

在亚马逊上搜索“信息检索”以获取更多信息。

您还可以查看我对Design Question for Notification System的回答，其中概述了用于搜索的抓取网站的一般架构。