使用BeautifulSoup从HTML中提取div类文本

时间:2015-12-03 20:03:43

标签: python html web-scraping beautifulsoup

尝试从OkCupid中抓取数据并获取相关的文本数据。

例如,用户名数据存储在:

<div class="userinfo2015-basics-username"> AmericanMary666 

检索用户名的代码

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.okcupid.com/profile/AmericanMary666") 

bsObj = BeautifulSoup(html,"html.parser")
nameList = bsObj.findAll('div', attrs={'class': 'userinfo2015-basics-username'})

for name in nameList:
    print(name.get_text())  

它不工作,我不知道为什么。

1 个答案:

答案 0 :(得分:0)

您提供的链接中没有div个类userinfo2015-basics-username。 我的猜测是,您正在查看当前登录的浏览器中的HTML源代码。尝试注销或隐身会话,您将看到不同的来源。 您可能希望查看请求模块以验证和维护请求之间的会话。 http://docs.python-requests.org/en/latest/