将HTML转换为纯文本?

时间:2009-04-26 18:16:52

标签: html imap exchange-server exchange-server-2003

我可以使用Lumisoft的IMAP客户端从Microsoft Exchange中读取电子邮件。我已设置Exchange服务器设置以将任何邮件转换为纯文本。但是,当我读入信息时,它似乎仍然包含HTML / CSS。

从电子邮件正文中删除HTML / CSS的最佳方法是什么?或者我似乎错过了交换服务器上的设置?

2 个答案:

答案 0 :(得分:1)

我通常采取其中一种方法......

  1. 使用正则表达式。 如果你必须提出一个也适用于所有类型的无效标记的解决方案,可能有点难以做到,但我敢打赌其他人已经在你之前完成了它(提示:google或搜索SO)。

  2. 使用HTML解析器库。 你可以找到任何流行的编程语言。我建议使用Html Agility Pack。

答案 1 :(得分:0)

我不确定您的设置是如何工作的,如果您可以运行脚本等。显然,HTML解析器是解析HTML的最佳方式。例如,使用Hpricot(Ruby HTML解析库),您可以执行puts doc.find_element('body').inner_text,这将打印文档的文本内容。