Python数据抓取美丽的汤 - 缺少部分

时间:2015-03-05 15:04:28

标签: python web-scraping beautifulsoup python-requests python-3.4

我从网站上删除了一些数据,但它不包含我需要的部分。该部分位于网站的下半部分,我想要删除姓名,日期,抗议地点,年龄,当前行踪,信息和新闻链接。

我首先使用“name”,但它不包含h2标签。在使用soup.prettify进行仔细检查后,我发现页面在我需要的部分上方结束了一些行。我读到由于jquery或javascript导致scrappers失败但我没有在这里看到这样的问题。

提前感谢您的帮助。

import requests
import bs4

root_url = 'http://www.savetibet.org'
index_url = root_url + '/resources/fact-sheets/self-immolations-by-tibetans/'

def get_names_age():
    response = requests.get(index_url)
    soup = bs4.BeautifulSoup(response.text)
    print(soup.prettify())

    '''
    name_list = soup.find('div', {'class': 'entry'})
    for name in name_list:
        try:
            print(name.h2.text)
       except AttributeError:
            continue
    '''
get_names_age()

0 个答案:

没有答案