剥离Html标签Findall +美丽的汤

时间:2017-08-09 18:46:20

标签: python html beautifulsoup screen-scraping

我做了大概2个小时的搜索,我相信我的大脑可能只是炒了。今天是我与BeautifulSoup的第一天(所以请温柔)。我正在抓取的网站的源代码格式如下:

<a href="/listing/view" class="price">$100</a>

我感到非常愚蠢,因为我在写一个文件时得到了整个标签而且我有一种潜在的怀疑,即有一个如此简单的解决方案,但我似乎无法找到它。

目前我正在使用以下内容:

soup = BeautifulSoup(page.content, 'html.parser')
prices = soup.find_all(class_="price")
passed.append(prices)

如何定位具有特定标签之间匹配类的内容?

1 个答案:

答案 0 :(得分:1)

prices = soup.find_all(class_="price")

for a in prices:
  passed.append(int(a.text.strip().replace('$','')) # will append to the list

这应该有所帮助。