如何检测PDF中的可视块?

时间:2019-02-23 17:09:52

标签: artificial-intelligence ocr

我正在尝试OCR简历。我的第一个问题是在OCR之前获取文档的主要块。

由于所有简历都有“可视块”(指专业经验,技能,语言,爱好等等),所以我想知道是否有任何开源解决方案可以将文件“拆分”为“块”无论布局设计如何(我都认为这是AI的工作方式)

谢谢

1 个答案:

答案 0 :(得分:0)

首先使用zlib解压缩pdf。 然后,您将能够以可读格式查看pdf-https://web.archive.org/web/20141010035745/http://gnupdf.org/Introduction_to_PDF#A_first_example

pdf格式类似于后记。

还尝试将pdf转换为后记,以查看内容的排列方式。

您可以使用pdf解析器https://blog.didierstevens.com/2008/10/30/pdf-parserpy/

解压缩pdf。

也尝试一下-https://gist.github.com/averagesecurityguy/ba8d9ed3c59c1deffbd1390dafa5a3c2

一旦您看到了数据的显示方式=>您就可以开始使用徽标来提取更多含义。