python - 提取HTML文档来自的网站

时间：2013-08-23 04:43:22

标签： python html beautifulsoup

我有一个充满HTML文档的文件夹，这些文件是网页的保存副本，但我需要知道它们来自哪个网站，我可以使用哪些功能从文档中提取网站名称？我没有在BeautifulSoup模块中找到任何东西。我应该在文件中找到具体的内容吗？我不需要知道完整的网址，我只需要知道网站的名称。

答案 0 :(得分：1)

如果在源代码中某处提到了网址，则只能这样做。

首先找出提到的网址的位置。如果它在那里它可能会在基本标签中。有时网站会有一个很好的标题，其中包含指向其着陆页的链接，如果您想要的只是域名，则可以使用该标题。或者它可能在评论中，取决于你如何保存它。

如果在所有页面中提到URL的方式类似，那么您的工作很简单：使用re或BeautifulSoup或lxml和xpath来获取所需的信息。还有其他可用的工具，但其中任何一种都可以。