html - 抓取数据或使用API

@amazed

已编辑：修正了一些拼写问题20110310

这些网站如何收集所有数据 - questionhub，bigresource ...

这是一个非常一般的草图，说明在网站背景中可能发生的事情，如questionhub.com

蜘蛛程序（google“蜘蛛程序”了解更多信息）

一个。配置为开始在stackoverflow.com上阅读网页（例如）

湾运行程序，然后进入stackoverflow.com的主页，并开始访问它在这些页面上找到的所有链接。

℃。从所有这些页面返回HTML数据
搜索索引程序

读取spider返回的HTML数据并创建搜索索引存储它找到的单词以及在
用户界面网页

提供功能丰富的用户界面，以便您搜索已经抓取的网站。

这是合法的，可以像bigresource那样在框架中显示数据吗？

技术性，“一切都取决于”; - ）

通常，网站希望在谷歌中可见，所以为什么不在其他搜索引擎中显示。

就像谷歌显示网站被蜘蛛网时发现的部分文字一样， questionhub.com（或其他人）选择显示原始页面上的更多文字，可能保持原始HTML中的格式或更改格式符合他们标准的视觉风格。

远程站点可以“请求”spyder不会通过他们的部分/全部网页通过在名为robots.txt的知名文件中添加规则。蜘蛛没有必须尊重robots.txt，但一个警惕的网站将跟踪IP地址 spyders不尊重他们的robots.txt文件，然后阻止该IP地址从他们的网站上看任何东西。您可以在stackoverflow上找到有关robots.txt的大量信息，也可以在google上运行查询。

有几个行业（除了谷歌）建立了你所要求的。堆栈溢出中有标签用于搜索引擎，搜索;阅读其中一些问题/答案。 Lucene / Solr是开源搜索引擎组件。有一个伴侣开源蜘蛛，但现在这个名字让我不知所措。祝你好运。

我希望这会有所帮助。

P.S。因为你似乎是一个新用户，如果你得到一个帮助你的答案，请记住将其标记为已接受，或者给它一个+（或 - ）作为一个有用的答案。这也适用于你的其他帖子; - ）

抓取数据或使用API

1 个答案: