Python:在之前提取文本

时间:2016-03-21 02:08:52

标签: python html beautifulsoup

这是我要处理的html文件:

<span class="pl">Countries:</span> USA <br/>
<span class="pl">Language:</span> English <br/>

这是我的python代码:

from bs4 import BeautifulSoup

record=[]
soup=BeautifulSoup(html)
spans=soup.find_all('span')
for span in spans:
   record.append(span.text)

我最终得到的是:

Countries: Language:

结果遗漏了一些重要信息:“美国”和“英语” 我怎样才能得到文字?

1 个答案:

答案 0 :(得分:2)

使用.next_sibling表示法:

soup.find("span", text="Countries:").next_sibling
soup.find("span", text="Language:").next_sibling