Alfresco简单的OCR。从PDF文件中提取文本并使用它来启动工作流程

时间:2017-05-09 12:10:21

标签: ocr alfresco


我正在使用alfresco-simple-ocr和pdfsandwich以及tesseract OCR。我想从文档插入到文件夹中获取文本,然后在新工作流程中使用文本和pdf文件。

我设法进行OCR提取以及如何启动工作流程一个文件插入目录, 但是我无法从文件中获取文本并在工作流程中使用它。
是否有可能这样做?
在哪里可以开始实现该功能?

问候,Rafał

1 个答案:

答案 0 :(得分:2)

你不需要任何延期。 Alfresco已经集成了PDfBox,它将为您做到这一点。之后,它取决于您的PDF,如果它是包含图像的PDF(如此扫描的文档),或者它是包含已在其中的文本的PDF。 如果你想要OCR一些图像,你也有这个模块: https://github.com/bchevallereau/alfresco-tesseract

当您知道要转换的内容时,可以查看此页面,其中有关于如何调用变换器的javascript示例: http://docs.alfresco.com/5.2/references/dev-extension-points-content-transformer.html 如果需要,你也可以用Java做到这一点。