阅读方程&来自Word(Docx)的公式

时间:2014-09-07 11:40:56

标签: java ms-word apache-poi docx mathml

我们有一个单词/ docx文件,其中包含方程式。使用POI的XWPFWordExtractor.getText不会读取方程式。

我的问题是:

  1. 这些等式是什么/如何表示?
  2. 我如何阅读它们(我想最终在HTML上显示它们 - 如MathML ??)?
  3. 谢谢!

1 个答案:

答案 0 :(得分:1)

docx文件中的等式是使用omml m:oMathPara / m:oMath的表示:

  <m:oMathPara xmlns:m="http://schemas.openxmlformats.org/officeDocument/2006/math">
    <m:oMath>

我不了解POI,但在docx4j中,该命名空间中的元素是使用org.docx4j.math中的JAXB生成的对象表示的

我将通过编组m:oMathPara / m:oMath解决你的第二个问题,然后通过omml2mathml.xsl进行转换。请参阅Murray Sargent的博客(例如herehere)。