python中的HTML标记更正

时间:2012-03-01 08:23:34

标签: python html

有没有简单的方法来使用python纠正错误关闭的HTML标记?例如,我有:

<p><b>blabla</p></b>

并希望将其更改为:

<p><b>blabla</b></p>

2 个答案:

答案 0 :(得分:1)

您可以使用pytidylib

答案 1 :(得分:1)

你有什么尝试?例如。谷歌:“python tidy html”?无论如何,请看这篇文章:

如果你想在没有外部库的情况下这样做,你仍然可以通过一些正则表达式替换(例如将每个</p>[^<]*?</b>(启用re.DOTALL)替换为</b></p>但是 this is not the recommended way to modify/parse HTML