Beautifulsoup在解析前转义无效的xml字符

时间:2018-12-03 04:39:40

标签: python xml beautifulsoup

我需要解析包含以下行的excel 97 XML文档:

<Cell ss:StyleID="s21" ss:Formula="=IF(RC[-1]<>0,RC[-23]/RC[-1],0)"> <Data ss:Type="Number"></Data>
</Cell>

如果我正确理解“ <”和“>”字符,则需要转义,但不是。因此,当我使用漂亮的汤来解析此内容或lxml时,它会抛出异常,或者在遇到第一个字符时才停止。我想使用&lt,&gt等使这些字符转义,以便可以阅读文档。

文件很大,有100多个,因此我需要至少要快一些。如果有帮助,该编码将列为cp-1252。

将这些无效字符转为漂亮汤的最佳方法是实际上可以从文件中读取吗?

0 个答案:

没有答案