从网址中提取数字

时间:2014-05-04 16:20:16

标签: python regex xpath scrapy

尝试仅从网站上的以下字符串中提取数字:

<div class="with_basic_sprite" id="m_product_price_div"> 1111 EURO </div>

该字段的xpath是(还有其他工作,因此我不在此处包含它们)如下:

s.xpath(".//div[@id='m_product_price_div']/text()").re('^([0-9\.]+)')

它不起作用,价格字段为空 与.re('^([\d]+)')相同。

尝试了.extract(),它同时提取价格和货币。

任何暗示我的正则表达式错误的提示?

2 个答案:

答案 0 :(得分:2)

正则表达式应该只是:

([0-9\.]+)

而不是:

^([0-9\.]+)

因为您想要的数字不在字符串的开头

答案 1 :(得分:0)

试试这个:

s.xpath(".//div[@id='m_product_price_div']/text()").re('^\s?([0-9\.]+)')