获取null结果,抓取xmtml

时间:2019-07-06 16:24:54

标签: python web-scraping scrapy

我是使用scrapy的新手,但此页面的结果为空。我试图在奥登(Orden)上浏览此页面https://www.fincaraiz.com.co/finca-raiz/arrendamientos/medellin/,以获取有关价格的信息,确定麦德林(Medellin)物业的规模,但是我可以。

我试图找到一些节点,但是shell仅向我显示我请求的信息不存在。在该页面的外壳之后,只有html标签。

我在orden中使用它来获得一些结果,但是它不起作用

response.css('*').getall()

这是实际结果

[<Selector xpath='descendant-or-self::*' data='<html></html>'>]

还有这个

['<html></html>']

谢谢

1 个答案:

答案 0 :(得分:1)

您需要设置User-Agent标头以获取正确的响应:

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36" https://www.fincaraiz.com.co/finca-raiz/arrendamientos/medellin/

只需编辑您的settings.py

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

之后,您将能够获取所有属性URL:

response.xpath('//a[.//h2]/@href').getall()