Question

在光学字符识别（OCR）中，我面临着在嘈杂/复杂的背景图像上分割字符的问题。我已经尝试了3个（我认为）中最简单的图像。此外，我尝试了对比度增强（直方图均衡），因为图像几乎是低对比度。但是，分段字符仍然具有较差的质量：连接字符，未填充区域，并且由于固定阈值而无法用于其他图像。

MyClass

如果有人可以提出一些想法，那将是非常好的。

Answer 1

您可以尝试MSER（最大稳定的极值区域）进行斑点检测。 VLFeat开源库包括MSER的实现。

整个scientific competition致力于文本细分。事实证明，许多方法都利用MSER作为其处理流程的一部分。

Answer 2

尝试使用中值滤波器或更好的一些边缘保留滤波器（如Kuwahara），而不是简单的高斯模糊。

我还建议使用更先进的阈值技术。你可以用Otsu阈值法或滞后阈值法开始研究。

Answer 3

没有奇迹，没有什么可以做到完美的细分，特别是在第三种情况下，没有先验信息。即使是人也不能。

对于这种困难的情况，我会使用自动阈值的直接二值化。任何类型的滤波，去噪，平滑，对比拉伸，自适应阈值处理......最多都不会产生任何积极影响，并且会更糟糕地擦除字符。

二值化后，找到已知大小和已知间距的3乘3盒的最佳排列。

您还可以尝试通过配置文件分析找到字符间限制（垂直和水平）。

如果你能负担得起，直接模板匹配网格可能是比分割更好的解决方案。