Python Beautiful Soup:找不到所有链接

时间:2018-01-24 20:53:29

标签: python beautifulsoup

我正在尝试废除英雄联盟的比赛数据。但是,使用此链接(https://eu.lolesports.com/en/schedule#slug=all)时,匹配链接(使用按钮:"显示匹配")不会显示。

我使用以下代码:

url = 'https://eu.lolesports.com/en/schedule#slug=na-lcs'
req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
html_page = urlopen(req).read()
soup = BeautifulSoup(html_page, "lxml")
for a in soup.find_all('a', href=True):
    link = (a['href'])
    print(link)

我想找到具有此格式的匹配链接" / en / lck / lck_2018_spring / match / 2018-01-23 / bbq-olivers-vs-rox-tigers"。但相反,我只得到这样的链接:

  

http://euw.leagueoflegends.com/en/legal/privacy   https://euw.leagueoflegends.com/en/legal/cookie-policy / en / about   http://twitch.tv/riotgames http://facebook.com/lolesports   http://twitter.com/lolesports http://youtube.com/lolesports   http://www.azubu.tv/lolesports http://instagram.com/lolesports   http://leagueoflegends.com

是否可以通过某些方式更改我的代码,以便获得匹配链接?提前致谢

1 个答案:

答案 0 :(得分:0)

它看起来像是一个javascript渲染页面。您需要使用webkit库来呈现页面 - >得到html - >抓取HTML链接。

此链接应该有用:https://impythonist.wordpress.com/2015/01/06/ultimate-guide-for-scraping-javascript-rendered-web-pages/