如何阅读和操作从Microsoft Word导出的HTML文档?

时间:2012-10-15 15:45:26

标签: java ms-word html-parsing

我有一个保存为.htm网页的Microsoft Word文档。以下是我的代码。我的问题是如何从文档中获取文本,并将其附加到字符串中。我注意到段落设置为标记<p class=MsoNormal>所以任何建议。我要追加的字符串是documentText

    String documentText = "";
    FileInputStream fileInput = null;
    BufferedInputStream myBuffer = null;
    DataInputStream dataInput = null;
    fileInput = new FileInputStream(selectedFile);
    myBuffer = new BufferedInputStream(fileInput);
    dataInput = new DataInputStream(myBuffer);
    while (dataInput.available() != 0){
        System.out.println(dataInput.readLine());
    }

2 个答案:

答案 0 :(得分:2)

使用HTML Parser库,例如HTML Parser

答案 1 :(得分:2)

查看HTML ParserJericho HTML Parser等图书馆,或使用HTMLEditorKit.Parser建议的原生HTMLEditorKit.ParserCallback + this answer方法。