使用python分割抓取的数据时出现问题

时间:2018-09-18 02:39:50

标签: python python-3.x split

我正在尝试使用BeauitfulSoup在某些页面上抓取数据,但似乎无法获得所需的数据。我在拆分数据时遇到问题。我将在下面发布我的代码,但是我想做的是获取每个地址并将其拆分。例如,如果您尝试下面的代码,我可以获得所需的数据,但似乎无法弄清楚如何在
标记上进行拆分。我正在尝试的输出是address = ['2 Warriston's Close','High Street, Edinburgh EH1 1PG','United Kingdom']

from bs4 import BeautifulSoup as bs
import requests

url = 'https://www.hauntedplaces.org/item/mary-kings-close/'

page = requests.get(url)

soup = bs(page.text, 'lxml')

region = soup.select('dd.data')[0]
# Need something here to split the region variable so I can separate for csv file. 
# Trying to use soup.select('dd.data')[0].split() but no avail. 
print(region)

1 个答案:

答案 0 :(得分:0)

因此,您想要获取HTML标签中的文本,而不是HTML。 BeautifulSoup具有text属性。因此,在这种情况下,只需添加以下行即可获得所需的内容:

print(region.text.split('\n')[:3])