Python提取链接

时间:2018-07-18 01:13:04

标签: python hyperlink beautifulsoup

是否有一种方法可以从单个页面提取所有链接(例如该页面有3个链接)。

然后,Python打开这3个链接,并从这3个链接中提取所有链接(例如,每个链接都有2个链接)?

有人可以给我写些什么来提取链接。但是,我想在打开这些链接时对其进行处理,例如,从该站点提取所有数字。我想将BeautifulSoup用作其中的一部分,但是只能用BS4或吗?

1 个答案:

答案 0 :(得分:-1)

您可以为此使用scrapy。

首先,要获取页面上的所有链接,可以阅读以下SO帖子
1。retrieve links from web page using python and BeautifulSoup
2。Fetch all href link using selenium in python

因此,一旦您了解了如何获取链接,请阅读以下教程 https://doc.scrapy.org/en/latest/intro/tutorial.html
您只需要This即可。基本上,您将在每个页面上使用yield,并在该页面上找到所有链接。