python - 文本文档的直观矩形聚类

我正在开发一个需要在文档图像上找到特定文本块的项目。我已经找到了所有文本的边界框，通常是每行一个＆＃39;但有时，如果间距太宽，则每个字的粒度。我能想到的最好的方法是智能群集解决方案。附件是一个图像作为一个例子。绿色矩形是检测到的文本，红色矩形是“坏”的例子。群集和蓝色的“好”＆＃39;群集。

这些矩形存储在[top-left-x, top-left-y, width, height]

列表中

我可以对感兴趣的区域（良好的聚类）做出的唯一假设是：

我缺乏聚类算法的经验，没有其他解决方案真正浮现在脑海中。计算速度不是一个大问题，但精确度至关重要。我正在研究一种替代的，基于模板的解决方案，但更通用的解决方案通常是优越的解决方案。

我试图以这样一种方式处理矩形列表，即我可以推断出一行＆＃39;行。或者列的列数＆＃39;但正如你所看到的那样，这些方面存在相当大的差异。例如，矩形可以跨越两行＆＃39;，列也是如此。

也许我可以实现一个相当贪婪的聚类函数，然后通过质心的x值中的最小方差来过滤聚类？

问题：拥有更多数学/实践专业知识的人是否可以提出进一步的方法来解决这个问题？