perl doc / pdf / xls到HTML转换器

时间:2011-01-12 15:23:48

标签: html perl pdf solaris doc

我想将扩展名为doc / docx / xls / xlsx / pdf的文件转换为HTML文件。有没有办法在Solaris上使用Perl以简单的方式做到这一点?

3 个答案:

答案 0 :(得分:2)

我用于处理Microsoft Office文件的perl库非常缺乏,我还没有找到能够很好地处理Office 2007和Office 2010扩展的文件库(请在评论中指出一个)你知道一个!)

如果您有运行Microsoft Office的PC,则可以使用win32ole从unix控制Office应用程序。我以前用Ruby做过: http://rubyonwindows.blogspot.com/2007/03/automating-excel-with-ruby.html

这是一个使用win32 OLE的perl模块: http://metacpan.org/pod/Win32::OLE

我个人不建议使用OLE方法,因为它有很多麻烦(比如你必须让Office在PC上运行才能使unix脚本正常工作,Windows防火墙几乎会随着你的PC更新而随机阻止unix脚本补丁)。

我没试过这个,但这是一个java程序,它将使用OpenOffice和GhostScript为您进行批量转换: http://www.codeproject.com/KB/java/PDFCM.aspx

答案 1 :(得分:1)

作为旁注,有一个名为xpdf的实用程序converts pdf files to text。这已在Solaris上编译,但您必须从源代码编译(您可以从命令行调用该实用程序)。我已经习惯了,这很棒。

更重要的是,有一个converts pdf to html的修改版本。这个我没有测试过,但它可能值得一试。

答案 2 :(得分:1)

for excel to html - >你可以使用exceltohtml

需要以下模块:

use Spreadsheet::ParseExcel;
use File::Find ; use Cwd ;