Question

我从一个更大的文档中得到了这个 HTML 片段，我想从主 div 中只用 class="title" 抓取“$ 430000”字符串：

<div class="title">
 $ 430000
 <div class="container">
  <span class="price">
   $ 505000
  </span>
  <span class="discount">
   (-14.9%)
  </span>
  <div class="inner-container">
   <p class="text--bold">
    Discounted $ 75000
    <span class="discount">
     (-14.9%)
    </span>
   </p>
   <p>
    18/02/2010
   </p>
  </div>
 </div>
</div>

我知道我可以通过 tag.stripped_strings 访问所需的字符串，然后从生成器生成第一个值：

tag = soup.find('div', {'class': 'title'})
print(next(tag.stripped_strings))

$ 430000

但是，我想知道是否有 BS4 属性或方法可以使我仅定位 <div class="title"> 中的文本，即“$ 430000”字符串。如果我打电话给tag.text，我会得到

\n                    $ 430000\n                                                                    $ 505000(-14.9%)\n                                    Discounted $ 75.000(-14.9%)18/02/2021```

Answer 1

您可能正在寻找 .next_element[docs] 属性，该属性指向抓取的任何内容之后的立即。所以，在你的情况下，它看起来像这样。

result = soup.find('div', class_='title').next_element.strip()
# -> $ 430000

Answer 2

是的，您可以通过以下方式仅获取父元素的文本并忽略其子元素的文本：

tag = soup.find('div', {'class': 'title'})
tagtext = tag.find(text=True, recursive=False)

Beautiful Soup 4：仅从包含子标签的标签中提取文本

2 个答案: