latex - 如何从LaTeX文档中提取重要的文本内容

时间：2011-01-29 13:43:30

标签： latex plagiarism-detection

我需要从我在LaTeX中编写的论文文档中提取纯文本内容，以进行自动反剽窃检查。我只知道“草案”选项，但这还不够。

我应该省略：

删除所有引用也很好。输出应该是普通（UTF-8编码）文本文件。

有没有直接的方法来做到这一点？我并不想真正想要逐页手动复制它。

答案 0 :(得分：1)

是：untex，一个简单的C脚本。您还可以查看detex。

答案 1 :(得分：1)

您可以尝试使用评论包（或十几种替代方案中的一种）将等式，图形，表格等转换为评论环境和\ renewcommand \ footnote [1] {}以删除脚注。 \ pagestyle {empty}应该删除页面标题等，因此在结果上运行pdftotext应该接近你想要的。

答案 2 :(得分：1)

您可以使用pandoc之类的文档转换器，或将输出PDF转换为Calibre之类的纯文本。

答案 3 :(得分：1)

通常你想要对文本进行一些LaTeX处理，比如你有

\ newcommand * {\ SO} {的StackOverflow \索引{的StackOverflow} \ xspace}

...

我花了很多时间在\所以，等等   哇....

在此处过滤掉文本段落时，如果包含任何宏，则不会提供类似于预期结果的文本。

因此，尝试直接从* .tex文件中提取内容通常会从结果中留下很多东西。因此，通常更好地研究乳胶加工的产量。我建议将latex转换为html，然后从html转换为text。您可能需要进行一些手动清理，但我认为它应该相对接近。

答案 4 :(得分：1)

虽然提到了侦探，但还有另一个项目，旨在改善它。它被称为opendetex，看看吧！