从@href属性获取值

时间:2014-05-21 17:34:40

标签: xpath web-scraping scrapy

我正在废弃一个基于javascript的系统分页的网站,所以我想从@href属性中提取页码,这就是链接的外观:

<a href="javascript:AllerAPage('1', 'element_id');">Page 1</a>

1 个答案:

答案 0 :(得分:2)

Scrapy selectors支持regular expressions

sel.xpath('//a/@href').re(r"javascript:AllerAPage\('(\d+)',")

请注意,//a/@href xpath表达式是一个示例 - 您可能有不同的表达式。

演示显示正则表达式的工作#39;提供:

>>> import re
>>> s = "javascript:AllerAPage('1', 'element_id');"
>>> re.search("javascript:AllerAPage\('(\d+)',", s).group(1)
'1'