尝试下载html页面以创建一个非常简单的Web爬虫

时间:2014-01-08 15:39:06

标签: python html regex web-crawler

我刚开始使用python上的html页面。 我正试图从我的PC上离线运行BBC站点,并为此编写了一个python代码。 我已经通过浏览主页上的链接(使用正则表达式)制作了下载网站上所有html页面的功能。 我在本地目录上有所有链接,但它们都被称为sub0,sub1,sub2。 如何编辑主页以便将所有链接指向我目录中的html页面而不是在线页面? 再次,页面不会以其原始名称调用 - 所以用本地目录替换域将不起作用。 我需要一种方法来浏览主页上的所有链接并改变它们的整个路径。

1 个答案:

答案 0 :(得分:1)

我认为最好的方法是创建某种映射文件。该文件将映射BBC网站上的原始网址=>机器上文件的路径。在从主页抓取链接的过程中,您可以非常轻松地生成此文件。然后,当您想要脱机抓取此站点时,您可以简单地遍历此文档并访问本地文件路径。或者,您可以爬过原始主页并搜索映射文件中的链接,并找出它们所导致的文件。

这种方法有一些明显的缺点,最明显的是更改下载页面的目录结构/文件名会破坏你的爬行......