Question

我们必须将html转换为带有实体的正确文本。 html包含未排序的列表，段落，中断，排序列表等......

我们需要的是这样的事情：

<p> Title <br /> Subtitle </p>
<ul>
    <li><b>list item 1</b></li>
    <li>list item 2</li>
</ul>
<p>Some more text</p>

这应该正确转换为：

Title\n
Subtitle\n\n
&bull;List item 1\n
&bull;List item 2\n
Some more text

大胆，强壮，斜体等......可以忽略不计。

我使用过正则表达式，BeautifulSoup和lxml。我已经在互联网上阅读了很多文章，其中Stackoverflow，但我找不到合适的解决方案。

我想，如果浏览器能够显示它，它也可以正确解析。