我目前正在使用网络抓取工具来抓取与一组关键字匹配的某些作业/项目。除了链接,我已经可以提取所有内容。标记示例如下-
'<a href="/at.gv.bmdw.eproc-p/public/de_AT/tenderlist?action=view&object=a2c49245-23b2-46e1-acc7-c5a78913a090-6908b324-963d-49ba-8cff-305625a8775e">1190 Wien, Peter-Jordan-Straße 82/Borkowskigasse 2, Universität für Bodenkultur, Holzneubau Türkenschanze - Aufzug</a>'
我该如何仅提取链接?
def handle_starttag(self, tag, attrs):
self.links = []
if tag == "td" or tag == "a":
attrs = dict(attrs)
if tag == "a" and attrs.get("class", "") == "even":
self.links.append(attrs['href'])
elif tag == "a" and attrs.get("class", "") == "odd":
self.links.append(attrs['href'])
这是我拥有的代码,但是无法正常工作。这是我要复制的Ajax请求网站-https://ausschreibungen.usp.gv.at/at.gv.bmdw.eproc-p/ajax/dataTablesTenderList