将PDF转换为文本没有换行符

时间:2016-05-31 02:00:11

标签: pdf pdf-conversion

我有成千上万的PDF文件需要转换成txt文件,但我需要保留原来的换行符,让我举一个例子来更好地解释。文件采用这种格式

(例A)

1. Lorem ipsum dolor sit amet, consectetur adipiscing elit
2. Lorem ipsum dolor sit amet, consectetur adipiscing elit
3. Lorem ipsum dolor sit amet, consectetur adipiscing elit
4. Lorem ipsum dolor sit amet, consectetur adipiscing elit

线条很长,比我上面使用的线条长得多,所以在PDF中它们就像这样包裹着

(例B)

1. Lorem ipsum dolor sit amet, 
consectetur adipiscing elit
2. Lorem ipsum dolor sit amet, 
consectetur adipiscing elit
3. Lorem ipsum dolor sit amet, 
consectetur adipiscing elit
4. Lorem ipsum dolor sit amet, 
consectetur adipiscing elit

如何在不包装换行符的情况下获得示例A的文本? 我曾尝试使用PHP PDFParser库,Python PDFMiner,XPDF pdftotxt,它们都没有用,它们或者给了我一个例子B,或者一个彻头彻尾的混乱。

让我觉得这是可能的事情是,如果我使用在线服务http://pdf2doc.com/它给我示例A,就像我想要的那样,那么我可以将文档保存为txt。

0 个答案:

没有答案