有没有简单的方法来使用python纠正错误关闭的HTML标记?例如,我有:
<p><b>blabla</p></b>
并希望将其更改为:
<p><b>blabla</b></p>
答案 0 :(得分:1)
您可以使用pytidylib。
答案 1 :(得分:1)
你有什么尝试?例如。谷歌:“python tidy html”?无论如何,请看这篇文章:
如果你想在没有外部库的情况下这样做,你仍然可以通过一些正则表达式替换(例如将每个</p>[^<]*?</b>
(启用re.DOTALL
)替换为</b></p>
,但是 this is not the recommended way to modify/parse HTML。