通过HTML编辑pdf

时间:2013-06-01 17:00:51

标签: android pdf annotations itext ocr

不确定这是否是这个问题的正确位置,但我无法找到任何其他建议的媒介。

1 个答案:

答案 0 :(得分:0)

文字提取。正如评论中提到的mkl,PDF可能已经包含一层文本(数字创建或预先OCRed),或者它可能是没有文本的图像专用PDF(扫描或光栅化)。可以尝试现有的文本提取,但我认为成功的可能性很小,因为PDF没有用于文本提取目的的坐标信息。换句话说,从PDF中以编程方式提取所有现有文本非常容易,但很难从特定区域或区域中提取文本。因此,即使文本已经存在于内部,也经常使用OCR,因为OCR返回的文本具有非常详细的位置和区域信息,可以映射到图像坐标。

PDF区域突出显示。我相信你要么必须重新构建一个突出显示某个区域的新PDF,要么构建自己的类似PDF的查看器,它将使图像和坐标以及文本和突出显示的区域变得快乐。我会选择创建自己的查看器,因为您可以对功能和UI进行额外控制。您的查看器可以将PDF作为输入并生成修改后的PDF作为输出,但是当您使用文档时,它不一定是PDF,即使它可以像用户的角度看起来像PDF一样,但增加了交互功能。 / p>