脚的空csv / json

时间:2018-06-28 17:35:54

标签: python-3.x scrapy scrapy-spider

我开始用草皮了。我按照文档中的教程编写代码。当我运行输出json或csv时,输出的文件为空。当我在外壳中测试选择器时,我得到了数据。我将发布我的代码:

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "adororomance"
    start_urls = [
            'http://www.adororomances.com.br/arromances.php?cod=01',
            ]

    def parse(self, response):
        for livro in response.xpath('//*[@id="page_livro_coluna"]'):
            yield {
                    'titulo':
                    livro.xpath(
                        '//*[@id="page_livro_coluna"]/div[1]/h1/text()').extract_first(),
                    'autor(a)':
                    livro.xpath(
                        '//*[@id="page_livro_coluna"]/div[2]/span/a/span/h2/text()').extract_first(),
                    'titulo original':
                    livro.xpath(
                        '//*[@id="page_livro_coluna"]/div[3]/text()').extract_first(),
                    'coleção':
                    livro.xpath(
                        '//*[@id="page_livro_coluna"]/div[4]/h3/a/text()').extract_first(),
                    'publicação':
                    livro.xpath(
                        '//*[@id="page_livro_coluna"]/div[4]/div[1]/span[1]/text()').extract_first(),
                    'ano':
                    livro.xpath(
                        '//*[@id="page_livro_coluna"]/div[4]/div[1]/span[2]/text()').extract_first(),
                    'série':
                    livro.xpath(
                        '//*[@id="page_livro_coluna"]/div[4]/div[2]/a/span/text()').extract_first(),
                    'descrição':
                    livro.css(
                        '//*[@id="description"]/text()')
                      .extract_first(),
            }

通过测试,如果我删除json渲染器,我发现'descrição'正在破坏代码。当在外壳中放入选择器时,我得到了:

['\r\n\t\t\t\t \r\n\t\t\t\t Ser sequestrada por um sheik árabe nem passou pela cabeça de Diane, ao visitar o deserto do Saara. Porém, foi o que aconteceu. Khasim ben Haran era um homem poderoso e arrogante, cujo único objetivo, ao fazer dela sua prisioneira, era vingar a morte da mãe. No entanto, esse mesmo homem que a aterrorizava, com ameaças cruéis, também a fascinava. E a figura altiva e exótica não saía da mente de Diane nem por um instante... \r\n                \r\n              ']

另一个问题:\r\n\t这行换行符将在我的json中呈现吗?如果是的话,我该如何摆脱它们?

谢谢

1 个答案:

答案 0 :(得分:0)

首先,livro.css('//*[@id="description"]/text()').extract_first(),应该是livro.xpath('//*[@id="description"]/text()').extract_first(),。在CSS选择器中使用xpath会引发一个异常,该异常将终止抓取过程,这可能就是为什么您的输出未得到任何结果的原因。

第二,像\r\n\t这样的换行符将保留在您的json文件中,并且它们将根据您用来检查json文件的软件来呈现或不呈现。如果要删除,则可以使用strip()函数:

livro.xpath('//*[@id="description"]/text()').extract_first().strip()

请注意,如果xpath找不到任何信息,它将返回None并且strip()将失败,在这种情况下,您将必须添加额外的检查以确保该值是不是None

相关问题