是否有OCR无法识别的字体?

时间:2012-11-13 10:55:03

标签: ocr

我正在尝试编写一个只能由人类阅读的文档。文档内容无法复制。为此,我将其页面转换为图片并将其添加回PDF文件。主要问题是任何OCR程序都可以取回整个书面文本,尤其是页面清晰(与扫描的书相对),这将提高OCR的准确性。

那么,是否存在OCR无法识别的字体。否则,是否有一种技术可以使我的文档只能被人类阅读,但却被OCR无法识别? (例如,添加特定背景等...)

提前谢谢。

5 个答案:

答案 0 :(得分:4)

一般来说,OCR不通过识别他们的“字体”识别文字,而是通过分析字符的特征和形状来识别文字,意味着它在图形开放区域,不同文本的形状和字母中寻找相似之处。正在扫描要转换的文件。 (这就是为什么它也可以识别那些没有使用任何字体的手写文件)

通过其功能识别文本的过程称为Intelligent Character Recognition

我认为你的问题没有一定的答案可以使用哪种字体使OCR无法读取,但只是为了让一般的OCR尝试使用一些calligraphic fonts like this one更难不遵循一般的角色特征,因此计算机软件难以阅读(这也是CAPTCHA背后的主要思想)。

但是,这可能会给一般的OCR带来困难,但仍然不是100%成功的解决方案,而且它也会让任何人都难以阅读。

答案 1 :(得分:1)

看看CAPTCHA技术,它与您分享您的目标,因此应该已经找到了解决您的困难的解决方案/陷阱。

答案 2 :(得分:0)

你想要的并没有真正的解决方案。这是在尝试同时发布时试图阻止的典型示例。这没什么意义。

有些特殊字体无法通过现成的OCR解决方案识别。用户需要额外的许可才能获得识别这些字体的插件。一个例子是旧的德语“Fraktur”字体。但是对于人类来说也很难读: - )

答案 3 :(得分:0)

在文档中使用图形水印可能会混淆OCR。

答案 4 :(得分:0)

我知道某些OCR引擎(例如Tesseract)无法处理已连接或cursive scripts(加入字形)。您可能想尝试一下并找出答案。

相关问题