编写脚本来抓取网站并以JSON格式输出数据?

时间:2017-07-13 16:18:49

标签: python json python-2.7 beautifulsoup bs4

我遇到了问题。我想获得该网站所有公司列表数据的JSON。

每个链接端点都包含公司特定的数据,例如 公司名称,描述,邮政编码,州和地址 我最初的想法是:

  1. 将网站列表列入
  2. 可能再次使用requests.get来抓取每个终点
  3. 到目前为止,我尝试了几种方法,这是我最近的尝试:

    import requests 
    from bs4 import BeautifulSoup
    
    
    
    base_url = "http://data-interview.enigmalabs.org/companies/"
    r = requests.get(base_url)
    
    soup = BeautifulSoup(r.content, 'html.parser')
    
    links = soup.find_all("a")
    
    link_list = []
    
    
    for link in links:
      print  link_list.append("<a href='%s'</a>" %(link.get("href")))
    

    我不知道如何从各个页面中提取所需的所有数据

1 个答案:

答案 0 :(得分:1)

jquery.js
相关问题