解析元标记并使用Tika从body获取HTML内容

时间:2013-02-25 16:25:34

标签: java xml-parsing apache-tika

我用伟大的Apache Tika库解析文件。我想用自己的解析器提取元标记,然后仅将内容从<body> - 标记作为HTML获取,并将其存储在数据库中。

我现在已经尝试了几个小时/天:-(,但找不到解决方案:

  • 当我在ToHTMLContentHandler - 标记之后使用<body> 时,我会在没有<html> - 标记的情况下使用无效的命名空间获得例外。
  • BodyContentHandler只返回没有HTML标记的正文。
  • tika-app似乎使用TransformerHandler来获取HTML(之前我从未听说过这种处理程序。)我可以使用它来获取<body>中的HTML -tag并自己解析元标记?这比使用ToHTMLContentHandler
  • 更好吗?

1 个答案:

答案 0 :(得分:2)