自动从pdf中提取许多文件的文本

时间:2013-04-22 17:20:52

标签: java python pdf text

我有大约10,000个pdf文件(conf文件),我需要从这些文件的某些部分(如实验部分)中提取文本并保存在文件中。 有没有人知道一个java工具或一些python工具可以帮助我做到这一点?

提前致谢

AYUSH

3 个答案:

答案 0 :(得分:2)

您是否在发布前研究过您的问题?我只是用Google搜索并找到了这个Apache项目:http://pdfbox.apache.org/

答案 1 :(得分:1)

对于java:看看iText

对于python,我会使用PDFMiner

答案 2 :(得分:0)

由于这些是学术论文,你还应该看看lapdftext

  

LA-PDFText是一个从基于PDF的文件中提取准确文本的系统   研究文章(以及能够提高绩效的界面)   需要的地方)。该系统是开源的,并提供简单   用于从主要研究文章中提取文本的基线函数   使用开发人员可以自定义的规则。