如何编写handle_starttag方法以提取链接?

时间:2019-04-23 07:27:08

标签: python-3.x web-scraping html-parsing html-parser

我目前正在使用网络抓取工具来抓取与一组关键字匹配的某些作业/项目。除了链接,我已经可以提取所有内容。标记示例如下-

'<a href="/at.gv.bmdw.eproc-p/public/de_AT/tenderlist?action=view&amp;object=a2c49245-23b2-46e1-acc7-c5a78913a090-6908b324-963d-49ba-8cff-305625a8775e">1190 Wien, Peter-Jordan-Straße 82/Borkowskigasse 2, Universität für Bodenkultur, Holzneubau Türkenschanze - Aufzug</a>'

我该如何仅提取链接?

def handle_starttag(self, tag, attrs):
    self.links = []
    if tag == "td" or tag == "a":
        attrs = dict(attrs)
    if tag == "a" and attrs.get("class", "") == "even":
        self.links.append(attrs['href'])
    elif tag == "a" and attrs.get("class", "") == "odd":
        self.links.append(attrs['href'])

这是我拥有的代码,但是无法正常工作。这是我要复制的Ajax请求网站-https://ausschreibungen.usp.gv.at/at.gv.bmdw.eproc-p/ajax/dataTablesTenderList

0 个答案:

没有答案