下载没有.pdf网址的pdf文件

时间:2019-08-16 17:29:23

标签: python python-3.x python-requests

我正在尝试从this website下载PDF文件。

我是Python的新手,目前正在学习该软件。我已经下载了urllib和bs4之类的软件包。但是,任何URL中都没有.pdf扩展名。取而代之的是,每个格式都采用以下格式:http://www.smv.gob.pe/ConsultasP8/documento.aspx?vidDoc={.....}

我尝试使用soup.find_all命令。但是,这并不成功。

from urllib import request
from bs4 import BeautifulSoup
import re
import os
import urllib

url="http://www.smv.gob.pe/frm_hechosdeImportanciaDia?data=38C2EC33FA106691BB5B5039DACFDF50795D8EC3AF"
response = request.urlopen(url).read()
soup= BeautifulSoup(response, "html.parser")    
links = soup.find_all('a', href=re.compile(r'(http://www.smv.gob.pe/ConsultasP8/documento.aspx?)'))
print(links)

1 个答案:

答案 0 :(得分:1)

这对我有用:

import re

import requests
from bs4 import BeautifulSoup

url = "http://www.smv.gob.pe/frm_hechosdeImportanciaDia?data=38C2EC33FA106691BB5B5039DACFDF50795D8EC3AF"
response = requests.get(url).content
soup = BeautifulSoup(response, "html.parser")
links = soup.find_all('a', href=re.compile(r'(http://www.smv.gob.pe/ConsultasP8/documento.aspx?)'))
links = [l['href'] for l in links]
print(links)

唯一的区别是我使用requests是因为我已经习惯了它,并且我为href返回的每个Tag取了BeautifulSoup属性。 / p>

相关问题