Question

我必须解析一些实验室报告，我正在使用Tesseract从中提取数据。我遇到了一个问题，如果我传递整个页面的图像，Tesseract无法正确识别文本。但是，如果我传递一小部分页面（从Test Report覆盖整个表格到*****），它就能正确读取所有文本。

在正式情况下（当我传递整个图像时），它产生一些无用的英文单词的随机文本输出。部分内容如下：

Command I ran: tesseract -l eng report.png out

Reﬁerence No : assurcAN, 98941-EU
5:er Nu (SKU) , 95942, 95943
Labelled age gwup “aw

Quamny 20 pweces

Fackagmg pmwosd Yes

Vendor

Manmamurer

但是当我通过该小节时，我得到了准确的结果。

这可能是什么问题？我该如何解决？

查看示例报告图片：