将单选按钮字段的值从PDF导出到文本

时间:2014-07-09 11:11:33

标签: unix pdf formatting pdftotext

为了对一组PDF文件执行一些自然语言处理操作,我需要自动从OCR扫描的PDF文件中提取一些单选按钮字段的值到文本。使用pdftotext时,会将两个选项单选按钮(Female,Male)导出为文本,例如:

  

     

     

我需要的是某种注释,显示选择了哪个单选按钮,例如:

  

     

X女

     

是否有可以执行此操作的UNIX工具?我已经阅读了pdftotext手册,并尝试了-raw和-layout等开关,但没有成功。

提前致谢。

TL; DR我可以使用pdftotext或类似的UNIX工具从OCR扫描的PDF文档中提取单选按钮的值吗?

0 个答案:

没有答案
相关问题