Question

我有这个HTML代码（网站是www.kupindo.com）：

<div class="holder_content" style="margin-top:20px">
        <div class="holder_pagination">
            <a class="next_prev_link" href="/Knjige/Strucna-literatura/Biznis-i-organizacija/artikli/61_strana_2">« Prethodna</a> 
            <a href="/Knjige/Strucna-literatura/Biznis-i-organizacija/artikli/61">1</a> 
            <span style="float:left">...</span>
            <a class="pagination_active_page">3</a> 
            <span style="float:left">...</span>
            <a href="/Knjige/Strucna-literatura/Biznis-i-organizacija/artikli/61_strana_313">313</a> 
            <a class="next_prev_link" href="/Knjige/Strucna-literatura/Biznis-i-organizacija/artikli/61_strana_4">Sledeća »</a>

            <form action="/Knjige/Strucna-literatura/Biznis-i-organizacija/artikli/61" name="formPagination" id="formPagination" method="post" style="width:170px">
                <label>Idi na stranu:</label>
                <input name="iStr" id="iStr" class="textbox" type="text">
                <input name="butIdiNaStranu" id="butIdiNaStranu" value="Idi" type="submit">
            </form> 
         </div>     
</div>

我需要提取最后一页的编号（313）才能遍历所有页面。当我没有上课时，我怎么能这样做呢。我只能使用以下方法提取第一页的编号：

broj=corba.find_all("div",{"class":"holder_pagination"})

然后使用：

broj.find("a").text

当我做len(broj)时，我得到1（因为只有一个holder_pagination，我知道）。

Answer 1

您应该反过来使用find和find_all。只有一个holder_pagination，因此请使用find：

broj = corba.find("div",{"class":"holder_pagination"})

然后使用find_all查找所有链接：

links = broj.find_all("a")

现在你有一个链接列表，所以只需从最后选择第二个，你就拥有它：

links[-2].text

BeautifulSoup没有上课

1 个答案: