为了对一组PDF文件执行一些自然语言处理操作,我需要自动从OCR扫描的PDF文件中提取一些单选按钮字段的值到文本。使用pdftotext时,会将两个选项单选按钮(Female,Male)导出为文本,例如:
性
女
男
我需要的是某种注释,显示选择了哪个单选按钮,例如:
性
X女
男
是否有可以执行此操作的UNIX工具?我已经阅读了pdftotext手册,并尝试了-raw和-layout等开关,但没有成功。
提前致谢。
TL; DR我可以使用pdftotext或类似的UNIX工具从OCR扫描的PDF文档中提取单选按钮的值吗?