为什么我无法访问此页面上的所有数据?

时间:2014-11-13 18:46:00

标签: python beautifulsoup scraper

我正试图用漂亮的汤来刮掉tvtropes,但由于某种原因,我想要的数据被删除了。即使我从页面返回整个“汤”,我也在说话。具体示例是此网站:http://tvtropes.org/pmwiki/pmwiki.php/Series/Firefly

我想要刮掉底部文件夹中的所有转义。由于某种原因,在“意外瞄准技能”列表项目下的AD文件夹中的“我是aimin”之后,它会停止从这些文件夹中返回数据。然后它打印出来的内容。我正在做的一切正确,所以我不明白是什么问题是。出于某种原因,tvtropes不允许你刮掉整个页面吗?

def webcrawler(startingurl):
    request = urllib2.Request(startingurl)
    url = urllib2.urlopen(request)       
    soup = BeautifulSoup(url)
    print soup.prettify().encode('UTF-8')
    #this does the same thing
    for item in soup.findAll('a', {'class':'twikilink'}):
        if 'Main' in str(item):
           print item, '\n'

webcrawler("http://tvtropes.org/pmwiki/pmwiki.php/Series/" + 'Firefly')

1 个答案:

答案 0 :(得分:1)

试试这个,

pip install html5lib

然后将代码编辑为

soup = BeautifulSoup(url,'html5lib')


out[]:
<a class="twikilink" href="http://tvtropes.org/pmwiki/pmwiki.php/Main/YouHaveToHaveJews" title="http://tvtropes.org/pmwiki/pmwiki.php/Main/YouHaveToHaveJews">You Have to Have Jews</a> 

<a class="twikilink" href="http://tvtropes.org/pmwiki/pmwiki.php/Main/YouMustBeCold" title="http://tvtropes.org/pmwiki/pmwiki.php/Main/YouMustBeCold">You Must Be Cold</a> 

<a class="twikilink" href="http://tvtropes.org/pmwiki/pmwiki.php/Main/YouRebelScum" title="http://tvtropes.org/pmwiki/pmwiki.php/Main/YouRebelScum">You Rebel Scum!</a> 
相关问题