如何解析BeautifulSoup中的内部文本

时间:2016-02-14 19:38:50

标签: python web-scraping beautifulsoup

我有以下html内容:

<div class="myClass">
    <b>Title:</b> New event<br/><b>Content:</b> <a href="some email">Parsing with BeautifulSoup </a> 
(Options goes here)<br/><b>Time:</b> Jan 12 2015 11:20:17
    <br/>
</div>

我希望获得Title:ContentTime信息作为此输出:

New event

Parsing with BeautifulSoup

Jan 12 2015 11:20:17

我知道我可以通过首先获取myClass的所有内容然后手动解析字符串来实现。是否可以使用BeautifulSoup直接进行?

编辑:我也可以使用soup.find('div', {'class': 'myClass'}).b.next_sibling,但这会让Parsing with BeautifulSoup退出

1 个答案:

答案 0 :(得分:0)

我发现它可以像这样解决:

title = soup.find('div', {'class': 'myClass'}).a.text
content = soup.find('div', {'class': 'myClass'}).b.next_sibling
time = soup.find('div', {'class': 'myClass'}).a.next_sibling.next_sibling.next_sibling.next_sibling

欢迎任何其他建议:)