打开同一网页python的不同网址

时间:2018-07-26 14:31:13

标签: python python-requests parsel

我正在尝试抓取一个网站,该网站有许多页面用于不同范围的产品。我正在使用以下方法。

def extract_product_urls(url):
page_no = 0
page_urls = set()
while True:
    sel = Selector(text=next(get_html(f'{url}?page={page_no}')))
    links = sel.css('a.productMainLink::attr(href)').getall()
    if not links:
        break
    page_urls |= set((map(lambda link: urljoin(url, link), links)))
    page_no += 1
return page_urls

即使将页码更改为指向同一页并卡在while循环中,也会出现此问题。有解决方案吗?还是我应该访问页面的元信息并比较它们的相似性。

0 个答案:

没有答案