识别tesseract OCR中的标点符号

时间:2016-11-04 15:19:19

标签: ocr tesseract

我正在运行tesseract,以便在区分分号和逗号的重要环境中从pdf文件中提取文本。我发现在OCR之后,冒号常常显示为逗号。准确性非常好。我正在寻找有关如何提高分号与逗号检测准确性的建议。根据{{​​3}}建议,我的程序是首先使用pdpdoppm从Xpdf将多页pdf文件转换为ppm文件,然后使用imagemagick将其转换为tif,然后在.tif文件上运行tesseract。我已将ppm文件的分辨率设置为1000 DPI并在imagemagick中使用-sharpen选项以提高分辨率,但似乎都没有改善分号识别。有关预处理图像文件的任何建议,还是只是一个艰难的攀登小山?

修改:此处指向原始thispdf.ppm文件以及.tif输出的链接。请注意,这是我不拥有的受版权保护的材料。

0 个答案:

没有答案
相关问题