美丽的汤嵌套表

时间:2015-05-07 00:03:59

标签: python web-scraping beautifulsoup

我正在努力解决如何在此网址中找到嵌套表格的问题:

视图源:http://taxweb.co.guilford.nc.us/CamaPublicAccess/PropertySummary.aspx?REID=0180721

具体为"所有者的邮寄地址"存储的数据新表从第370行开始的地方

owner_fields = soup.find(text="Owner's Mailing Address").find('table'),
owner_address = owner_fields.find('td').get_text(),
owner_city = owner_fields.find('td')[2].get_text(),
owner_state_zip = owner_fields.find('td')[3].get_text(),

我离开这里了吗?

1 个答案:

答案 0 :(得分:1)

soup.findAll(attrs={"id":"ctl00_ContentPlaceHolder1_table3"})[0]找到并返回表格。

附加.findAll('b')定位地址元素的容器和内容。

map()语句遍历.findAll('b')元素,并返回其内容的unicode版本。

address_contents = map(lambda value: value.contents, soup.findAll(attrs={"id":"ctl00_ContentPlaceHolder1_table3"})[0].findAll('b'))

In [56]: address_contents 
Out[56]: 
 [[u'101 OAKHURST AVE'],
 [u' '],
 [u'HIGH POINT'],
 [u'\n', <span id="ctl00_ContentPlaceHolder1_DetailsView4_Label1"></span>],
 [u'NC'],
 [u'27262']]

我将保留列表值的分配给你。