多种语言的光学字符识别

时间:2019-03-18 13:36:04

标签: ocr tesseract

我想知道是否有一种方法可以使用OCR来同时检测多种不同的语言,例如我的英语和法语?

我希望输入的文档集可以是扫描图像(因此需要OCR),尽管它们也会有很多数字和其他干扰因素。大多数文档将使用英语,但也可能使用法语。我的目标确实是舍弃这些法语文档,但是到目前为止,我对OCR的使用(使用pytesseract / tesseract)仅是相当准确的。这让我担心,在OCR中添加语言检测可能会成为问题。我对OCR还是比较陌生,所以我不确定OCR是否会识别该字符而不管其语言是什么-尤其是因为法语和英语使用的字母大多相同。

0 个答案:

没有答案