search - 谷歌从抓取的网页中提取了哪些信息？ - Thinbug

谷歌从抓取的网页中提取了哪些信息？

时间：2012-11-01 10:48:00

标签： search search-engine scrape web-crawler

谷歌通过抓取下载整个页面，然后抓取一些数据来创建索引，如标题，元标记？

谷歌从网页中提取的其他数据点是什么？

1 个答案:

答案 0 :(得分：0)

来自Google创始人的this旧版和经典论文：

系统功能包括：

超链接（用于计算pagerank）
主播文字
视觉演示细节，例如单词的字体大小
页面的完整原始HTML可在存储库中找到

另请参阅this了解有关信息检索目的的处理的更多信息。