用于从pdf中提取单词坐标的库/工具

时间:2010-12-06 13:11:53

标签: java pdf coordinates highlighting

我正在寻找一个(最好是Java-)库或命令行工具来从pdfs中提取单词坐标。 input-pdfs包含文本或后面带有ocr-text的图像。

我的使用案例:
在Java Web应用程序中,我想使用它进行命中突出显示并在没有其他软件(例如Adobe Reader等)的情况下呈现。相反,我想将匹配的页面转换为图像并将它们呈现在网页中。

2 个答案:

答案 0 :(得分:0)

您应该能够使用http://pdfbox.apache.org/进行突出显示并将其显示为pdf本身。另请查看http://itextpdf.com/

答案 1 :(得分:0)

您可以使用JPedal生成缩略图(http://www.jpedal.org/pdf_thumbnail_tutorials.php)并提取文本(http://www.jpedal.org/support_egETAW.php)