如何将pdf扫描图像转换为高分辨率tiff,最适合ocr?

时间:2018-05-16 06:25:22

标签: pdf imagemagick tiff

我用图像magick将pdf转换为tiff图像, 从500kb到4.6mb文件大小。

问题是tiff图像转换不好的结果。有些文字难以阅读。

这是我在cli中的简单命令

convert \
pph.pdf \
pph-psd.tiff

PDF扫描图片: PDF Scanned Image

Tiff图片: TIFF IMAGE

为什么会发生这种情况以及如何将pdf扫描图像转换为高分辨率tiff,最适合ocr?

2 个答案:

答案 0 :(得分:2)

之所以发生这种情况是因为ImageMagick是一个光栅图像处理器,它使用默认的72dpi网格对您的PDF进行光栅化 - 这对您的需求来说太粗糙了。您需要在光栅化之前设置更高的密度:

convert -density 288 input.pdf -compress lzw result.tiff

您可能最好安装Poppler工具并使用其pdfimages工具来提取图像。

答案 1 :(得分:-1)

如果您需要,可以尝试Coolutils TotalPDFConverter,它对我有用。