如何从其他网站“抓取”内容

时间:2010-08-01 13:08:47

标签: web-crawler archive

一位朋友问过我,我无法回答。

他问:我正在制作这个网站,你可以存档你的网站......

它的工作方式是这样的,你进入你的网站,例如,something.com然后我们的网站抓取该网站上的内容,如图像,以及所有这些并上传到我们的网站。然后人们可以在oursite.com/something.com上查看该网站的精确副本,即使阻止something.com的服务器已关闭。

他怎么能这样做? (php?)以及会有什么要求?

3 个答案:

答案 0 :(得分:1)

听起来你需要创建一个webcrawler。 Web爬虫可以用任何语言编写,但我建议使用C ++(使用cURL),Java(使用URLConnection)或Python(w / urrlib2)。你可能还可以使用curl或wget命令和BASH快速破解一些东西,尽管这可能不是最好的长期解决方案。此外,请不要忘记,只要您抓取某个人的网站,就应该下载,解析并尊重“robots.txt”文件。

答案 1 :(得分:0)

使用wget。无论是linux版本还是gnuwin32软件包的windows版本。 get it here

答案 2 :(得分:0)

  1. 使用curl获取html。
  2. 现在将所有图片,css,javascript更改为绝对网址(如果它们是相对网址)。 (这有点不道德)。您可以从您的网站获取所有这些资产并托管。
  3. 尊重所有网站的“robots.txt”。 read here