从嵌套的锚标记中抓取网址和标题

时间:2015-06-03 10:47:19

标签: python web-scraping scrapy

这是我第一次使用scrapy的刮刀。

我正在尝试从https://www.google.co.in/trends/hotvideos#hvsm=0网站废弃视频网址。

setenforce 1

一般来说,我所做错的事情会非常明显。

1 个答案:

答案 0 :(得分:2)

使用帮助Scrapy FormRequest完成工作。

from scrapy.http import FormRequest
import json

class DmozSpider(scrapy.Spider):
    name = "google"
    allowed_domains = ["google.co.in"]
    start_urls = [
        "https://www.google.co.in/trends/hotvideos#hvsm=0"
    ]

    def parse(self, response):
        url = 'https://www.google.co.in/trends/hotvideos/hotItems'
        formdata = {'hvd':'','geo': 'IN','mob': '0','hvsm': '0'}
        yield FormRequest(url=url, formdata=formdata, callback=self.parse_data)

    def parse_data(self, response):
        json_response = json.loads(response.body)
        videos = json_response.get('videoList')
        for video in videos:
            item = CraigslistItem()
            item['title'] = video.get('title')
            item['link'] = video.get('url')
            yield item