python - 尝试下载html页面以创建一个非常简单的Web爬虫

尝试下载html页面以创建一个非常简单的Web爬虫

时间：2014-01-08 15:39:06

标签： python html regex web-crawler

我刚开始使用python上的html页面。我正试图从我的PC上离线运行BBC站点，并为此编写了一个python代码。我已经通过浏览主页上的链接（使用正则表达式）制作了下载网站上所有html页面的功能。我在本地目录上有所有链接，但它们都被称为sub0，sub1，sub2。如何编辑主页以便将所有链接指向我目录中的html页面而不是在线页面？再次，页面不会以其原始名称调用 - 所以用本地目录替换域将不起作用。我需要一种方法来浏览主页上的所有链接并改变它们的整个路径。

1 个答案:

答案 0 :(得分：1)

我认为最好的方法是创建某种映射文件。该文件将映射BBC网站上的原始网址=＆gt;机器上文件的路径。在从主页抓取链接的过程中，您可以非常轻松地生成此文件。然后，当您想要脱机抓取此站点时，您可以简单地遍历此文档并访问本地文件路径。或者，您可以爬过原始主页并搜索映射文件中的链接，并找出它们所导致的文件。

这种方法有一些明显的缺点，最明显的是更改下载页面的目录结构/文件名会破坏你的爬行......