Scrapy规则的正则表达式

时间:2015-06-05 11:56:50

标签: python regex scrapy-spider

我想从格式为http://www.vesselfinder.com/vessels?page=i的网页抓取数据,其中i0到某个整数。

以下正则表达式是否适用于此模式:

start_urls = [
        "http://www.vesselfinder.com/vessels"
    ]

rules = (
    Rule(LinkExtractor(allow=r"com/vessels\?page=[1-100]"),
         callback='parse_item', follow=True),
)

1 个答案:

答案 0 :(得分:1)

对于1-100范围,您可以使用

r"com/vessels\?page=(?:[1-9][0-9]?|100)\b"

请参阅demo

如果您需要任何号码,请使用\d+

r"com/vessels\?page=\d+"

请参阅demo 2