Question

在Python中使用selenium进行抓取并使用re进行解析从字符串

<div type="copy3" class="sc-bxivhb dHqnfT">756 W Peachtree St NW Atlanta GA 30308</div>

我想回来

756 W Peachtree St NW Atlanta GA 30308

此正则表达式

("copy3").*?(?=</div>)

还给我

"copy3" class="sc-bxivhb dHqnfT">756 W Peachtree St NW Atlanta GA 30308

但是我想排除>之前756之前的所有内容

我如何包括这个？

Answer 1

用硒刮擦，用硒得到...

my_element = driver.find_element_by_css_selector('div[type="copy3"]')
address = my_element.text

Answer 2

匹配>，然后捕获组中后面的非<，并提取该组：

type="copy3"[^>]+>([^<]+)

如果您只想匹配第一个<之后的内容，则必须使用lookbehind（仅当您确切知道{{1 }}属性可能包含）：

class=""

或者改为使用正则表达式模块，因此可以使用(?<=type="copy3" class="sc-bxivhb dHqnfT">)[^<]+：

\K

type="copy3"[^>]+>\K[^<]+