将HTML标记转换为RTF文档

时间:2014-03-03 15:29:33

标签: python html xml rtf markup

我有一个包含嵌入式HTML内容的XML文档,我试图将其转换为RTF输出文件。我有用<li>, <p>, <b>和其他HTML标记装饰的XML元素,我希望将其转移到生成的RTF中。

以下是现在的作用:

  1. 将XML标记内容提取为字符串(包含换行符,分节符和列表的HTML标记)
  2. 将XML标记内容写入RTF文件。
  3. 我正在使用Python脚本来实现转换。另外还使用了ElementTree(解析输入XML)PyRTF-NG(从HTML转换为RTF),这是一个处理表格和其他特殊格式的库。目前,除了HTML的'markdown'(即将HTML格式标签转换为实际的RTF格式)之外,我已经设法获得了我需要的一切。澄清一下,我的意思是如果我的RTF转换器遇到<ol><li>标签,它应该在RTF中创建一个有序列表,而不是仅仅将<ol><li>标签吐出到RTF中。

    有没有人知道Python是否有任何允许我这样做的本机调用,或者任何其他可能具有完成RTF完全转换所需的Python库。

    谢谢!

1 个答案:

答案 0 :(得分:3)

最好的免费转换器是LibreOffice,它可以在termimal上直接使用命令行,参见

libreoffice --convert-to

Python使用UNO桥接器间接调用相同的转换器,