pdf - PDF，PPT，DOC等文字

PDF，PPT，DOC等文字

时间：2012-03-02 19:32:45

标签： pdf docx doc plaintext odt

也许这些应该是单独的问题，每个格式一个，但是......

什么是最可靠的库（使用任何语言），二进制文件（适用于任何平台）或 webservices （免费或不免费））将多种“包含文本的”格式转换为纯文本？

通过可靠，我的意思是接近100％提取所有人类可读文本的能力，而不提取“代码”或“标记”。

包含文字的格式，我的意思是：所有最常见的内容，如PDF，PPT，DOC，DOCX，RTF，HTML，“。PAGES”，“。KEYNOTE”，ODT等等

请建议支持多种这些格式的软件包/服务以及仅支持的软件包/服务。另外，是否有软件“堆栈”“捆绑”许多包/服务以转换为文本？

4 个答案:

答案 0 :(得分：0)

http://www.filebuzz.com/files/Ascii_Convert/1.html＆lt; - 此链接将带您进入可将PDF和其他类型的文件转换为ASCII格式（纯文本）的转换器列表。对于Word文档，您可以使用软件完成此操作。例如，对于Word文档，当您单击“另存为”时，它将打开一个对话框，该对话框将具有“另存为类型”下拉列表。选择“纯文本* .txt”，它将以纯文本格式保存文件。祝你好运！

答案 1 :(得分：0)

在Java中，Apache Tika toolkit使用现有的解析器库从各种文档中检测并提取元数据和结构化文本内容。

答案 2 :(得分：0)

如果您正在使用Ruby，请查看Yomu。它是Apache TIKA的包装器，支持多种文档格式，包括以下内容：

Microsoft Office OLE 2和Office Open XML格式（.doc，.docx，.xls，.xlsx，.ppt，.pptx）
OpenOffice.org OpenDocument格式（.odt，.ods，.odp）
Apple iWorks格式
富文本格式（.rtf）
可移植文档格式（.pdf）

答案 3 :(得分：0)

您可以尝试Extract Text。

从描述：“从PDF和Microsoft Word文件等文档中提取文本。它将提取的文本保存在文件中。与.pdf，.doc，.docx，.xls，.xlsx，.ppt一起使用，还有很多。”需要Microsoft.NET Framework 4.0。