如何使用Python从手写的扫描PDF中提取数据?

时间:2019-08-04 11:51:50

标签: python ocr python-tesseract handwriting-recognition

因此,我有这些PDF,它们是结构化反馈表单的扫描副本。表格具有这些复选框和用于手写笔记的空格。我正在尝试从这些PDF中提取数据并将其保存到非结构化CSV文件中。 现在使用pytesseract我可以抓取打印的文本(首先将PDF转换为图像),但是我无法捕获手写内容。有没有做的事情。 随函附上样品表以供参考。

https://imgur.com/a/2FYqWJf

1 个答案:

答案 0 :(得分:0)

PyTesseract是一个OCR程序。尚未经过培训或设计以识别手写。因此,您有两种选择:1)重新训练手写体(虽然这将非常耗时且复杂)2)使用实际上旨在识别手写体而不是打印文本的另一个库:https://docs.microsoft.com/en-us/azure/cognitive-services/computer-vision/quickstarts/python-hand-text