Question

我正在尝试从网页上抓取网址。我正在使用此代码：

from bs4 import BeautifulSoup

import urllib2 

url = urllib2.urlopen("http://www.barneys.com/barneys-new-york/men/clothing/shirts/dress/classic#sz=176&pageviewchange=true")

content = url.read()
soup = BeautifulSoup(content)

links=soup.find_all("a", {"class": "thumb-link"})

for link in links:

      print (link.get('href'))

但我得到的输出只有48个链接而不是176.我做错了什么？

Answer 1

所以我所做的就是使用Postmans拦截器功能查看网站每次加载下一套36件衬衫时所做的调用。然后从那里复制代码中的调用。你不能一次性转储所有176个项目，所以我在网站上复制了36个项目。

{{1}}

如何从无限滚动网页中抓取正确数量的网址？

1 个答案: