抓取数据或使用API

时间:2010-11-23 10:05:26

标签: html regex web-crawler

这些网站如何收集所有数据 - questionhub,bigresource,thedevsea,developerbay?

将这些数据作为bigresource显示在框架中是否合法?

1 个答案:

答案 0 :(得分:0)

@amazed

已编辑:修正了一些拼写问题20110310

  

这些网站如何收集所有数据 - questionhub,bigresource ...

这是一个非常一般的草图,说明在网站背景中可能发生的事情,如questionhub.com

  1. 蜘蛛程序(google“蜘蛛程序”了解更多信息)

    一个。配置为开始在stackoverflow.com上阅读网页(例如)

    湾运行程序,然后进入stackoverflow.com的主页,并开始访问它在这些页面上找到的所有链接。

    ℃。从所有这些页面返回HTML数据

  2. 搜索索引程序

    读取spider返回的HTML数据并创建搜索索引 存储它找到的单词以及在

  3. 找到的那些单词的URL
  4. 用户界面网页

    提供功能丰富的用户界面,以便您搜索已经抓取的网站。

  5.   

    这是合法的,可以像bigresource那样在框架中显示数据吗?

    技术性,“一切都取决于”; - )

    通常,网站希望在谷歌中可见,所以为什么不在其他搜索引擎中显示。

    就像谷歌显示网站被蜘蛛网时发现的部分文字一样, questionhub.com(或其他人)选择显示原始页面上的更多文字, 可能保持原始HTML中的格式或更改格式 符合他们标准的视觉风格。

    远程站点可以“请求”spyder不会通过他们的部分/全部网页 通过在名为robots.txt的知名文件中添加规则。蜘蛛没有 必须尊重robots.txt,但一个警惕的网站将跟踪IP地址 spyders不尊重他们的robots.txt文件,然后阻止该IP地址 从他们的网站上看任何东西。您可以在stackoverflow上找到有关robots.txt的大量信息,也可以在google上运行查询。

    有几个行业(除了谷歌)建立了你所要求的。堆栈溢出中有标签用于搜索引擎,搜索;阅读其中一些问题/答案。 Lucene / Solr是开源搜索引擎组件。有一个伴侣开源蜘蛛,但现在这个名字让我不知所措。祝你好运。

    我希望这会有所帮助。

    P.S。因为你似乎是一个新用户,如果你得到一个帮助你的答案,请记住将其标记为已接受,或者给它一个+(或 - )作为一个有用的答案。这也适用于你的其他帖子; - )