ocr - Alfresco简单的OCR。从PDF文件中提取文本并使用它来启动工作流程

Alfresco简单的OCR。从PDF文件中提取文本并使用它来启动工作流程

时间：2017-05-09 12:10:21

标签： ocr alfresco

我正在使用alfresco-simple-ocr和pdfsandwich以及tesseract OCR。我想从文档插入到文件夹中获取文本，然后在新工作流程中使用文本和pdf文件。

我设法进行OCR提取以及如何启动工作流程一个文件插入目录，但是我无法从文件中获取文本并在工作流程中使用它。
是否有可能这样做？
在哪里可以开始实现该功能？

问候，Rafał

1 个答案:

答案 0 :(得分：2)

你不需要任何延期。 Alfresco已经集成了PDfBox，它将为您做到这一点。之后，它取决于您的PDF，如果它是包含图像的PDF（如此扫描的文档），或者它是包含已在其中的文本的PDF。如果你想要OCR一些图像，你也有这个模块： https://github.com/bchevallereau/alfresco-tesseract

当您知道要转换的内容时，可以查看此页面，其中有关于如何调用变换器的javascript示例： http://docs.alfresco.com/5.2/references/dev-extension-points-content-transformer.html 如果需要，你也可以用Java做到这一点。