如何将* .tex文件的一些有限情况转换为纯文本* .txt

时间:2017-01-21 03:21:03

标签: java text latex text-processing tex

所以我尝试过使用tokenizer,但我只能弄清楚如何在java中替换或删除单个分隔符。

喜欢这个输入: \ box {盒装字} {\ boldface这一行以粗体显示。 }

我希望能够删除\ box以及我必须遵循的一些其他指导原则: 我们要应用的规则非常简单。

  1. 删除所有命令反斜杠后跟一个或多个小写字母并终止 空白。
  2. 删除所有大括号:}或{。
  3. 用FORMULA 1代替所有数学显示($之间的字符) ,公式2等...
  4. 环境(特殊命令)。 \ {开始}枚举 \ item第一项,\ fer和只有这个。 \ item第二行\迭代甚至更多。 \ item第三。 ... \ {端枚举} 将所有内容放在带有数字的新段落中的反斜杠项之间。所以 上面应该看:
  5. 第一项,只有这一项。
  6. 第二行甚至更多。
  7. 第三

1 个答案:

答案 0 :(得分:0)

(IMO)明智的方法是使用独立的TeX文本(或TeX到HTML)转换器。应该:

  • 为实现自己的转换器节省了大量工作。
  • 做得更好......假设你选择了一个不错的转换器。
  • 使您不必处理基于启发式/基于模式的方法失败的特殊情况流。
相关问题