从PDF文件中获取纯文本

时间:2010-07-22 21:07:19

标签: php

我知道有关此主题的一些问题。

我需要一个框架/脚本/解决方案通过php 从PDF文件中获取纯文本。

是否存在如何从PDF文件中获取纯文本的解决方案?

(是的,我搜索了这几个小时。这是最后一次机会。)

2 个答案:

答案 0 :(得分:1)

在linux系统上,只需使用pdftotext(使用shell_exec)

echo `pdftotext in.pdf out.txt`;

PS:看看这个article,我不知道它是否有用。

答案 1 :(得分:0)

我相信你可以通过使用处理OCR的google docs API来解决问题。

它转换图像 到明文,所以你首先必须使用GhostScript和ImageMagick或其他东西将pdf转换为图像

相关问题