如何使用Tikaparser解析单词doc并将内容保存在XML或JSON中

时间:2016-11-23 07:15:55

标签: java parsing apache-tika

我正在使用Java中的以下代码解析word文件

ParseContext pcontext = new ParseContext();
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
InputStream stream = TikaInputStream.get(new File(file.getAbsolutePath()));
ContentHandler handler = new BodyContentHandler(new ToXMLContentHandler());             
parser.parse(stream, handler, metadata);

如何生成xml / JSON以保存内容?

1 个答案:

答案 0 :(得分:0)

您可以使用处理程序和元数据信息获取doc的内容,如下所示。在JSON中设置这些信息或根据您的要求生成XML。

System.out.println("Contents of the document:" + handler.toString());
System.out.println(" " + metadata.get(Metadata.CONTENT_TYPE));
System.out.println("Sample Word Document"+ metadata.get(TikaCoreProperties.TITLE));
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();

for(String name : metadataNames) {
     System.out.println(name + ": " + metadata.get(name));
}
相关问题