将pdf转换为文本

时间:2011-09-14 18:38:32

标签: c# c++ pdf xpdf

我需要创建一个将pdf文件转换为txt的C#或C ++(MFC)应用程序。我不仅需要转换,还需要删除页眉,页脚,左边距上的一些垃圾字符等。因此应用程序shold允许用户设置页边距以切断不需要的内容。我实际上已经使用xpdf创建了这样一个应用程序,但是当我尝试在提取的文本中插入自定义标记以保留斜体和粗体时,它会给我一些问题。也许有人会建议一些有用的东西?

感谢。

2 个答案:

答案 0 :(得分:1)

那里有共享软件和免费软件实用程序。尝试获取源代码,或者按原样使用它们。

可以找到PDF规范的公开版本here: Adobe PDF Specification

可以找到PDF共享软件阅读器:PDF Reader source code @ SourceForge

答案 1 :(得分:0)

请查看Podofo。它是LGPL许可的库,具有许多强大的编辑功能。其中一个例子,txt2pdf IIRC,是一个良好的开端:它显示了基本的文本提取;从那里你可以检查pre(在pdf引擎中)或post(在文本中)过滤是否足以达到你的目标。我没有使用Pdf Hummus,但它也应该具备这些功能,尽管它不那么简单。