盲目提取Pdf含量

时间:2012-09-03 20:43:32

标签: pdf text pdf-generation ocr

我想知道是否有一种提取pdf文件内容的机制,目的是重新排列文本,保持pdf格式不变。也就是说,我不一定对OCR相关方法感兴趣,在这些方法中可以提取内容,甚至可以改变内容。但这是一种简单地逐字逐句或逐字逐句地重新格式化PDF格式的方式。

我不确定我是否清楚地表达了我的问题,这个问题的位置也是如此。如果有建议。

0 个答案:

没有答案