Question

我使用BeautifulSoup的lxml解析器来解析一些html。但是，它没有被解析，因为它已被编写。例如，以下代码：

import bs4

my_html = '''
<html>
<body>
<B>
<P>
Hello, I am some bolded text
</P>
</B>
</body>
</html>
'''

soup = bs4.BeautifulSoup(my_html, 'lxml')
print soup.prettify()

将打印：

<html>
 <body>
  <b>
  </b>
  <p>
   Hello, I am some bolded text
  </p>
 </body>
</html>

您可以看到来自的{{1}}标记以某种方式在美化版本中的my_html标记之前关闭，即使它应该在{{1}之后关闭}。关于可能发生的事情的任何想法？我完全不知所措。

Answer 1

这是因为标记内不允许使用段落。

只允许接受流内容的标记作为标记的父标记。有关列表，请参阅here。

然而，你可以反过来;允许作为标记的父级。在您的情况下，您可以将原始HTML更改为以下内容：

my_html = '''
<html>
<body>
<p>
<b>
Hello, I am some bolded text
</b>
</p>
</body>
</html>
'''

Answer 2

这是因为您在标记内没有标记，因此解析器正在尝试修复损坏的HTML。使用html5lib的html5lib解析器或Python的html.parser将导致您的预期输出（我只知道这是因为我刚测试过它）。

BeautifulSoup lxml解析器关闭它不应该的标签

2 个答案: