Question

我编写了一个抓取工具，用于从网页中提取链接和文本。这是内容的结构

DIV - UL - 李 - 一个

这是我的代码

from scrapy import Spider
from scrapy.selector import Selector

from stack.items import StackItem


class StackSpider(Spider):
    name = "stack"
    allowed_domains = ["stackoverflow.com"]
    start_urls = [
        "http://page.com",
    ]

    def parse(self, response):
        documents = Selector(response).xpath('//*[@id="node-329"]/div[1]/ul/li')

        for document in documents:
            item = StackItem()
            item['title'] = document.xpath('./a/text()').extract()
            item['link'] = document.xpath('/a/@href').extract()
            yield item

基本上，标签/ a / @ href不起作用。如果我对此进行评论并尝试仅提取文本，则可以正常工作。

请帮帮我。

Scrapy无法提取链接

0 个答案: