pytesseract - 从图像中提取数字

时间:2021-07-02 07:42:15

标签: python image python-tesseract

我是 pytesseract 的新手。我想从下图中提取用户 ID

Image

我使用的代码是:

import cv2
import pytesseract

pytesseract.pytesseract.tesseract_cmd = r'C:\Users\80141219\AppData\Local\Programs\Tesseract- OCR\tesseract.exe'

image = cv2.imread(r'C:\Desktop\dormancyIssue\testImage.jpg', 0)
thresh = cv2.threshold(image, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1]

data = pytesseract.image_to_string(thresh, lang='eng',config='--psm 6')
print(data)

cv2.imshow('thresh', thresh)
cv2.waitKey()

输出为:

wecy| H+ op Et >A EEE
@ Fle] x |
Fite Adion View WN (Gencal
| ale] xX .
x x & ‘
oraputer Manage
4B System Tools TT -
Gf Event Viewer
> gil Shared Folder sities
4B Local Users arg | Members:
To Users Bor 109033
3 Groups | | Soser5405
» @ Performance | | SPs0nss658
Bl device Menagy | | SE70z1611
> ap Windows Senff | | SE 7102
z Bons
Disk Manage
> iy Services and App}
Guages et goin raven
pe) ts) Cerone] ret ster
B& * & &°e «hs

我什至不确定输出中的某些数据来自哪里。请注意,我还尝试裁剪图像以仅包含 ID,但无济于事。

我想知道是否有人可能有解决方案或为我指明正确的方向。

谢谢!!

1 个答案:

答案 0 :(得分:1)

我看到您的 ID 仅由数字组成。这是tesseract收集数字信息的解决方案。

https://stackoverflow.com/a/46589648/7383731