无法使用tesseract从图像中提取文本

时间:2017-02-02 11:32:42

标签: python ocr tesseract

我正在尝试使用tesseract工具从图像中提取文本。但是,对于某些图像,tesseract无法检测到文本。我试图按照页面improve the quality of the output但是徒劳无功。 我附上了tesseract失败的样本图片。请让我知道任何其他有助于我提高输出质量的指针。
我正在使用pytesseract来自动化它。

enter image description here

1 个答案:

答案 0 :(得分:1)

众所周知,Tesseract在图像背景上存在文本困难,例如在你的模因中。因此,您需要进行一些预处理才能从后台删除文本。如果您愿意使用OCR api,请尝试使用Google Cloud版本或OCR.space,这两种图像都可以正常使用。

enter image description here

来自ocr.space的叠加。

相关问题