ocr - 是否有OCR无法识别的字体？

时间：2012-11-13 10:55:03

标签： ocr

我正在尝试编写一个只能由人类阅读的文档。文档内容无法复制。为此，我将其页面转换为图片并将其添加回PDF文件。主要问题是任何OCR程序都可以取回整个书面文本，尤其是页面清晰（与扫描的书相对），这将提高OCR的准确性。

那么，是否存在OCR无法识别的字体。否则，是否有一种技术可以使我的文档只能被人类阅读，但却被OCR无法识别？（例如，添加特定背景等...）

提前谢谢。

答案 0 :(得分：4)

一般来说，OCR不通过识别他们的“字体”识别文字，而是通过分析字符的特征和形状来识别文字，意味着它在图形开放区域，不同文本的形状和字母中寻找相似之处。正在扫描要转换的文件。 （这就是为什么它也可以识别那些没有使用任何字体的手写文件）。

通过其功能识别文本的过程称为Intelligent Character Recognition

我认为你的问题没有一定的答案可以使用哪种字体使OCR无法读取，但只是为了让一般的OCR尝试使用一些calligraphic fonts like this one更难不遵循一般的角色特征，因此计算机软件难以阅读（这也是CAPTCHA背后的主要思想）。

但是，这可能会给一般的OCR带来困难，但仍然不是100％成功的解决方案，而且它也会让任何人都难以阅读。

答案 1 :(得分：1)

看看CAPTCHA技术，它与您分享您的目标，因此应该已经找到了解决您的困难的解决方案/陷阱。

答案 2 :(得分：0)

你想要的并没有真正的解决方案。这是在尝试同时发布时试图阻止的典型示例。这没什么意义。

有些特殊字体无法通过现成的OCR解决方案识别。用户需要额外的许可才能获得识别这些字体的插件。一个例子是旧的德语“Fraktur”字体。但是对于人类来说也很难读： - ）

答案 3 :(得分：0)

在文档中使用图形水印可能会混淆OCR。

答案 4 :(得分：0)

我知道某些OCR引擎（例如Tesseract）无法处理已连接或cursive scripts（加入字形）。您可能想尝试一下并找出答案。