Java:将PostScript文件转换为文本

时间:2016-01-14 11:06:54

标签: java string text postscript

是否有一个Java库将PostScrpit文件“.ps”转换为String或TextFile(或者我可以用InputStream读取的东西)?

我有这些文件,需要阅读它们并根据其中的文本处理它们。它们总是只包含Text,通常只有一行像

日期:SWYgeW91IHJlYWQgdGhpcyB5b3UncmUgcHJvYmFibGUgdG8gY3VyaW91cyAgYnV0IG5pY2UgdHJ5IGFueXdheS4gUGxlYXNlIEhlbHA =

在其中。

现在我将其转换为PDF并使用OCR引擎“读取”它。但是对于一条线来说,似乎只有一点点。

还有其他办法吗?

如果你能指出我正确的方向,那就太好了。

2 个答案:

答案 0 :(得分:0)

PostScript是一种在纸张上定义图形输出到打印机设备的语言。因此它并不真正包含明文,并且从中“提取”文本会带来问题。例如,它可以在某些地方以编程方式确定,或者可以穿插PS代码,使文本数据无用。

通常,您会将修改后的PS输出到具有特定配置的打印机(真实或虚拟),该配置会将结果作为标准文本序列输出(无图形格式)。

这通常通过更改PS代码文件来完成,以更改文本输出命令。

这种方法的解释可以在以下怀卡托大学的第3部分中找到

http://www.cs.waikato.ac.nz/~ihw/papers/98NM-Reed-IHW-Extract-Text.pdf

答案 1 :(得分:0)

如果将PostScript文件转换为PDF(例如,使用Ghostscript ps2pdf或Acrobat Distiller),则可以使用iText(http://itextpdf.com)读取此文件。您还可以使用其中一个iText工具RUPS将PDF转换为更易读的形式。