我想使用 youtube 上的教程创建一个小程序来抓取视频网站上的下载链接。
但问题是包含下载链接的“href”有时包含相同的内容。 事实上,这是一个论坛,下面有一个下载视频的链接,以及较小尺寸的相同视频。如果我们点击视频,我们将被重定向到上述链接将我们重定向到的同一页面。
这里是小程序:
import requests
from bs4 import BeautifulSoup
links =[]
for p in range(21):
url = 'website url' + str(p)
response = requests.get(url)
print(response)
if response.ok:
print('Page: ' + str(p))
soup = BeautifulSoup(response.text, "html.parser")
iS = soup.findAll('i')
for i in iS:
a = i.find('a')
link = a['href']
links.append(link)
print(len(links))
with open('urls.txt', 'w') as file:
for link in links:
file.write(link + '\n')
with open('urls.txt', 'r') as file:
for row in file:
print(row)