python-不希望抓取内部标记

时间:2015-12-02 10:34:29

标签: python beautifulsoup

我正在使用BeautifulSoup抓取网站。

<time class="poster-card__date"> "Wed 16"
  <span class="event-time">7:00 PM</span>
</time>

python代码的一部分是这样的:

for event_date in soup.findAll('time',{'class':"poster-card__date"}):
        print(str(event_date.text))

现在问题是我为所有事件获得的输出是这样的:

Wed 167:00 PM

我想以不同方式抓取它们。实际上,在这里我想忽略事件的时间并且只打印日期部分,即不应该考虑内部<span>标记。所有事件的理想输出应该是:

Wed 16

1 个答案:

答案 0 :(得分:1)

您可以使用contents获取代码的内容

>>> for event_date in soup.findAll('time',{'class':"poster-card__date"}):
...         print(str(event_date.contents[0])),
...
 "Wed 16"