CrawlSpider没有关注链接

时间:2015-10-09 19:20:59

标签: web-scraping scrapy scrapy-spider

标题说明了一切,我正在努力让CrawlSpider为亚马逊的某些产品服务无济于事。

Here是我想要从中获取产品的原始网址。

查看下一个链接所在的HTML代码,如下所示:

<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s/ref=sr_pg_2?me=A1COIXT69Y8KR&amp;rh=i%3Amerchant-items&amp;page=2&amp;ie=UTF8&amp;qid=1444414650">
    <span id="pagnNextString">Next Page</span>
    <span class="srSprite pagnNextArrow"></span>
</a>

这是我正在使用的当前reg表达式:

s/ref=sr_pg_[0-9]\?[^">]+

使用像Pythex.org这样的服务,这似乎没问题,我正在获取这部分网址:

s/ref=sr_pg_2?me=A1COIXT69Y8KR&amp;rh=i%3Amerchant-items&amp;page=2&amp;ie=UTF8&amp;qid=1444414650

以下是我的抓取工具的代码:

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from amazon.items import AmazonProduct


class AmazonCrawlerSpider(CrawlSpider):
    name = 'amazon_crawler'
    allowed_domains = ['amazon.com']
    #allowed_domains = ['stackoverflow.com']
    start_urls = ['http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1']
    #start_urls = ['http://stackoverflow.com/questions?pagesize=50&sort=newest']
    rules = [
        Rule(LinkExtractor(allow=r's/ref=sr_pg_[0-9]\?[^">]+'),
           callback='parse_item', follow=True)
    ]
    '''rules = [
        Rule(LinkExtractor(allow=r'questions\?page=[0-9]&sort=newest'),
           callback='parse_item', follow=True)
    ]'''


    def parse_item(self, response):
        products = response.xpath('//div[@class="summary"]/h3')
        for product in products:
            item = AmazonProduct()
            print('found it!')
            yield item

由于某些未知原因,抓取工具未跟踪链接。此代码基于RealPython中的人员的博客教程,他们在这里抓取StackOverflow的问题。实际上,只需取消评论注释代码,看看这是否有效。

知道我在这里缺少什么吗?谢谢!

更新

根据@Rejected的答案,我已经切换到shell,我可以看到HTML代码与我在浏览器中看到的不同。

实际上,代码Scrapy正在获得,有趣的是:

<a title="Next Page" id="pagnNextLink" class="pagnNext" href="/s?ie=UTF8&me=A19COJAJDNQSRP&page=2">
    <span id="pagnNextString">Next Page</span>
    <span class="srSprite pagnNextArrow"></span>
</a>

我已经改变了我的reg表达式,所以看起来像这样:

s[^">&]+&me=A19COJAJDNQSRP&page=[0-9]$

现在我在shell中获取链接:

[Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=1', text='\n    \n        \n            \n            \n            \n            \n    \n    ', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=2', text='2', fragment='', nofollow=False), Link(url='http://www.amazon.com/s?ie=UTF8&me=A19COJAJDNQSRP&page=3', text='3', fragment='', nofollow=False)]

此外,抓取工具也正确!

1 个答案:

答案 0 :(得分:2)

Scrapy正在提供与您在浏览器中看到的不同的HTML数据(甚至只是请求“view-source:url”)。

为什么,我无法100%肯定地确定。所需的三个(?)链接将与允许路径中的r's/ref=sr_pg_[0-9]'匹配。

由于亚马逊正在使用某些东西来确定浏览器,因此您应该测试您在Scrapy实例中获得的内容。将其放入shell中,并通过以下内容自行使用LinkExtractor

LinkExtractor(allow=r's/ref=sr_pg_[0-9]').extract_links(response)