我正在寻找一个(最好是Java-)库或命令行工具来从pdfs中提取单词坐标。 input-pdfs包含文本或后面带有ocr-text的图像。
我的使用案例:
在Java Web应用程序中,我想使用它进行命中突出显示并在没有其他软件(例如Adobe Reader等)的情况下呈现。相反,我想将匹配的页面转换为图像并将它们呈现在网页中。
答案 0 :(得分:0)
您应该能够使用http://pdfbox.apache.org/进行突出显示并将其显示为pdf本身。另请查看http://itextpdf.com/。
答案 1 :(得分:0)
您可以使用JPedal生成缩略图(http://www.jpedal.org/pdf_thumbnail_tutorials.php)并提取文本(http://www.jpedal.org/support_egETAW.php)