我想编写一个 Python 函数,它将 URL 作为参数并输出一个包含网页内容的 Markdown 文件。网站中嵌入的图像应下载并在 Markdown 文件中适当引用。
我写了这段代码
import requests
import html2text
# The URL
link = "https://www.some.website"
f = requests.get(link)
# URL content to plain text (HTML)
textHtml = f.text
# HTML text to MD text
h = html2text.HTML2Text()
textMd = h.handle(textHtml)
# MD text is written to file
text_file = open("output.md", "w")
text_file.write(textMd)
text_file.close()
我认为它可以下载文本并将其格式化为 Markdown 文件,但我不知道如何下载图像并将 Markdown 文件中的引用添加到本地图像文件。
我该怎么做?
提前致谢!