拉出内嵌标签内嵌的html节标签的方法

时间:2016-12-23 12:34:38

标签: python html lxml

我们的应用程序从客户处获取 html 内容,并使用python的模块lxml对其进行处理。在我们的应用发布之前,我们无法编辑内容。

输入内容中的某些字符串存在以下问题: html 部分标记(例如<center><p>)出现在内联标记内(例如{{1} })。例如:

<b>

默认情况下,s = '<b><p>foo</p></b>' 通过提取错误的内联代码来修复它:

lxml.html.HTMLParser

产量

html.tostring(html.fromstring(s))

它影响输出 html 代码在浏览器中的显示方式(单词<div><b></b><p>foo</p></div> 不再以粗体显示)。

是否有更多或更少的通用方法从内联标记中提取 html 部分标记? < / p>

按照相同的例子,我们想获得这个字符串:

foo

天真的解决方案只是交换相应的标签,但它不适合像这样的字符串:

<p><b>foo</b></p>

我们将感谢任何解决方案:具体的库或只是算法。

0 个答案:

没有答案