最简单的方法或最佳工具将单词文本转换为清洁(X)HTML

时间:2008-11-25 16:03:43

标签: html xhtml ms-word

这可能是以另一种方式提出的。然而,我并没有在飞行中这样做。偶尔,我们会在包含em破折号,粗体,斜体文本和块引号的word文件中获取内容。有没有一个很好的工具将其转换为干净的HTML代码。

否则人们采取其他方法。

14 个答案:

答案 0 :(得分:4)

很久之前我的任务是使用结构合理的多兆字的Word文档并将其转换为一系列HTML页面(大约20,000个!)这是通过保存单词doc作为RTF(Word的另存为HTML输出太“脏”)并通过Perl脚本将RTF转换为HTML。转换是一个双程过程...首先清理常见的格式错误,然后将清理后的RTF转换为HTML。

由于文档编辑继续维护Word文档,因此在第一遍中编写常见的格式错误是有代价的,因为即使修复后错误也经常会重新出现。

顺便提一下,这个过程表现出一种非常怀疑的管理方式,如果一个好的程序员在短短40个小时左右就可以产生~2,000个网页无限期保持最新状态,而原作者(谁的时间更有价值?将花费数百小时进行转换,并且此后将被迫手工维护生成的HTML。

答案 1 :(得分:2)

我很惊讶没有人提到它,但HTML Tidy通常做得很好。我最近没有使用它,但我知道它特别适合清理从Word公开的HTML内容。

答案 2 :(得分:2)

我使用TinyMCE来删除和转换单个Word文档。它是免费的,只要您可以将其上传到您的网站主机(假设您有一个)。我保护我的安装以避免垃圾邮件,但您可以在http://tinymce.moxiecode.com/tryit/full.php使用他们的演示。

它实际上比我尝试过的大多数独立转换程序更好,至少对我如何使用它。

答案 3 :(得分:1)

对我来说最简单快捷的方法是从Word复制所有文本并使用 paste special <将其粘贴到 Dreamweaver 的wysiwyg编辑器(从MX到CS3的任何版本) / em>命令并选择仅保留文档的结构。如果你的word文档不是太复杂,它的效果很好,如果它非常复杂,你需要在代码视图中进行额外的编辑。生成的html非常干净。

此方法的唯一问题是您需要Dreamweaver,这不是免费的。无论如何,您可以使用DW的试用版测试该方法。

答案 4 :(得分:1)

几年前我写了一个名为CleanXHTML 1.2 for Microsoft Office Word 2003 (.NET 2.0)的工具。这是为了在Word的里面工作,允许您根据文档中突出显示(或选中)的内容导出XHTML。我多年来一直坐在Word 2007版本上。

答案 5 :(得分:1)

我编写了一个命令行实用程序来执行此操作:有关详细信息,请参阅此Doc to HTML converter

答案 6 :(得分:1)

您可以试试Doc To HTML Converter。它不是免费的,但它确实解决了这个问题。

答案 7 :(得分:1)

Necromancing:

在Word 2013中打开Word文档。
另存为odt(OpenOffice文档)。
使用OpenOffice打开 并使用
"Save As" ==> HTML-Document
或使用

"File" ==> Export ==> XHTML

导出将需要安装JRE,另存为。

对于Word,您可以使用COM-interop,也可以使用Aspose Words。

您也可以直接使用aspose.words,只需删除&#34; copyright&#34;带有xpath查询的文本;)

答案 8 :(得分:0)

Word使用自己的编码非常“脏”。它可以有嵌套的粗体标签,空粗体标签和各种恶意,具体取决于用户是否使用内置样式(标题1,标题2等)与更改字体大小。任何需要Word文档并尝试将其“转换”为HTML的内容都将继承相同的标记问题。

最好的办法是在Word中记录一个宏,对明显的事情执行多个搜索和替换操作,例如M-dashes,制表符,省略号等。

然后用占位符(如)替换分段符 ^ p ^ p ,然后将所有单个分隔符( ^ p )替换为一个空格,然后用</p>^p</p>替换以生成HTML段落。

然后复制整个文档,将其粘贴到记事本中以删除任何非ascii标记,然后将其复制并粘贴到HTML编辑器中,并手动标记剩下的10%,如粗体斜体,不匹配的段落标记等

没有什么比手工编码更好,所以使用这种技术,大部分工作都已完成,你可以从中开始使用干净的文字。

答案 9 :(得分:0)

转换为RTF并使用XSLT将富文本转换为HTML。我建议尝试将所有内容都作为RTF而不是.docx或任何Word格式。

答案 10 :(得分:0)

您可能需要尝试使用此工具:OpenXML Document Viewer

它提供了一个命令行工具,用于将OpenXML(DOCX)文档转换为HTML。

答案 11 :(得分:0)

如果您可以安装Word 2003或2007,则可以使用新的OOXML格式生成XML文件。格式很糟糕...复杂,但至少你可以使用标准工具解析它。这应该允许您从文件中提取所需的信息。

文件OfficeXMLMarkupExplained_en.docx包含介绍以及OOXML如何工作的许多详细信息。

答案 12 :(得分:0)

同时尝试http://www.manglebracket.com/,它是一个网络应用,您可以在其中上传Word DOC,并将其转换为HTML,其中包含各种(实际上太多)选项。当您的文案撰写人在Word中向您发送新闻稿并且您想将其放在网站上时,这非常适合临时转换。

答案 13 :(得分:0)

WordDown是用于将Microsoft Word文档转换为HTML5的书签。它不仅改变了文档的语法,还改变了语义和视觉外观。在我的测试案例中,与原始文档相比,视觉效果非常令人满意。如果要打印转换后的文档,您应该知道左侧的小红色横幅不包含在打印样式表中。