scrapy不会访问网址后#

时间:2014-12-24 08:57:29

标签: scrapy scrapy-spider

我正在为网站撰写一个剪贴簿。然而奇怪的事情正在发生,它没有访问我提供给他的URL。而是访问网站的基本网址。

我在互联网上搜索并了解到,scrapy会在#之后进入URL,我需要识别正在发送的Ajax请求并模仿它。

然而问题是。 Ajax请求的响应来自json响应。这不是一个HTML内容。有人请帮我解决这个问题。

以下是网址

https://www.buildersshow.com/Search/Exhibitors.aspx#showID=11&state=160&tabname=name

1 个答案:

答案 0 :(得分:0)

如果您调查页面发出的AJAX请求,请确定您需要发出的请求并获得响应,它应该是响应正文中包含的JSON。要解析它并获取您感兴趣的数据,请使用json解码器/编码器模块。像这样:

import json

mydata = json.loads(response.body)
info = mydata['somekey']
subinfo = mydata['somekey']['subkey']

等等。确保以正确的方式处理json解码器,最好先阅读official documentation