ghostscript如何将PDF转换为.txt?

时间:2016-07-08 14:53:25

标签: pdf converter ocr ghostscript

GNU Ghostscript能够将pdf文件转换为终端中的.txt(文本文件)。

gs -sDEVICE=txtwrite -o output.txt input.pdf

我想知道它是如何完成这项任务的?它是否使用OCR?

我不是在寻找一个非常沉重的解释,但只是向正确的方向推进(链接指南等也会这样做)。

谢谢!

1 个答案:

答案 0 :(得分:0)

不,它没有做OCR,这就是它有限制的原因。它有多种技术,并以层次结构的方式使用它们:

  • 如果字体具有ToUnicode CMap,请使用它来获取Unicode代码 点
  • 如果没有,则根据标准检查字形名称(如果可用) 列表
  • 假设字符代码为ASCII。

由于Ghostscript和相关的txtwrite设备是开源的,因此您可以轻松阅读源代码以获取更多信息。