ocr - 识别tesseract OCR中的标点符号

我正在运行tesseract，以便在区分分号和逗号的重要环境中从pdf文件中提取文本。我发现在OCR之后，冒号常常显示为逗号。准确性非常好。我正在寻找有关如何提高分号与逗号检测准确性的建议。根据{{3}}建议，我的程序是首先使用pdpdoppm从Xpdf将多页pdf文件转换为ppm文件，然后使用imagemagick将其转换为tif，然后在.tif文件上运行tesseract。我已将ppm文件的分辨率设置为1000 DPI并在imagemagick中使用-sharpen选项以提高分辨率，但似乎都没有改善分号识别。有关预处理图像文件的任何建议，还是只是一个艰难的攀登小山？

修改：此处指向原始this，pdf和.ppm文件以及.tif输出的链接。请注意，这是我不拥有的受版权保护的材料。

识别tesseract OCR中的标点符号

0 个答案: