Ghostscript将pdf转换为文本文件,输出不可读

时间:2016-10-24 20:55:03

标签: pdf ascii ghostscript

我试图将pdf文档转换为文本文件。一切正常,直到我打开输出文件,看到它的字符是不可读的一些中文字体

“琀攀猀琀”

这是我的命令行

gswin64c.exe -ps2ascii -sDEVICE=txtwrite -sOutputFile=outputtext.txt test.pdf 
我做错了什么?

1 个答案:

答案 0 :(得分:2)

你还没有发布文件,所以不可能完全确定,但是......

几乎可以肯定,PDF文件中的文本不是使用ASCII编码方案编码的(可能包含日落字体),并且不包含有问题字体的ToUnicode CMap。此外,字形名称不是标准名称(或其TrueType字体,没有命名字形)。

如果没有上述任何信息,txtwrite对字符代码所代表的内容没有任何线索,因此只需逐字发出即可。

鉴于您正在看中文字形,我怀疑原始字体是CIDFont,可能是TrueType字体,子集并且没有ToUnicode CMap。

在这种情况下,获取文本的唯一方法是使用OCR。