tesseract OCR中的标记字体样式(斜体)

时间:2014-09-22 14:38:59

标签: html ocr tesseract italic

在Windows 7上安装了tesseract-ocr v3.02.02,并通过命令行使用它:

1)将png文本输出到文本文件:tesseract image.png txtfile 2)将png文本输出到html文件:tesseract image.png htmlfile hocr

我需要它能够在输出文本或html文件中标记任何斜体文本。我该怎么做(最好是在命令行 - 从未在API模式下使用过它?)

1 个答案:

答案 0 :(得分:0)

Tesseract的hocr输出仅包括单词坐标和置信度值,而不包括与字体相关的信息。因此,您需要修改源代码以输出命令行模式所需的内容,或使用其API。