Tesseract不提取数字

时间:2019-06-01 16:35:17

标签: tesseract python-tesseract

OCR之前(tiff图像):

https://drive.google.com/open?id=1TBkhVx9sOtk8hXV-rcMSDE_DKnwK1V8o

使用tesseract进行OCR后(pdf):

https://drive.google.com/open?id=1V_fPSassUE6q9W7i7ACKtjMXrftv01r9

您可以从OCRed pdf中看到,底部的12位数字不是OCRed。您可以通过选择文字来查看

使用的cmd:

 sudo tesseract tiffaadh.tiff ocr_from_cmd -l eng+tam --oem 1 --psm 3 --tessdata-dir ../tessdata --user-words tessdata/eng.user-words pdf

我尝试过的事情:

  1. 我尝试了不同的oempsm,但结果相同。
  2. 我尝试仅将图像裁剪到文本部分。有效。的 数字是OCRed。但我希望它可以处理未裁剪的图像
  3. 现在尝试用tesseract尝试uzn(区域)。我会在这里更新 完成。

任何想法我怎么能得到OCRed数字?

0 个答案:

没有答案