使用java逐行读取html文件

时间:2014-03-06 12:22:40

标签: java html

我想读取一个html文件行和行,需要存储元素。对于textbox,我必须将id,name,type属性值存储到某个集合中。在同一个我需要获取复选框,radiobox等属性

他们的任何API都是逐行解析html文件。

4 个答案:

答案 0 :(得分:2)

您可以使用 DOM Parser 并阅读所有元素和属性。或者您可以使用基于DOM Parser的此库(jsoup)。

答案 1 :(得分:0)

不,因为那没有意义:HTML没有“行”的有用概念。您需要做的是按元素阅读HTML 元素。

XML有很多解析器,但HTML更宽松,所以你需要一个特殊的解析器。试试JTidy

答案 2 :(得分:0)

NekoHTML是您可以使用的众多html解析器之一。

答案 3 :(得分:0)

使用班级StringBuilder

 StringBuilder contentBuilder = new StringBuilder();
 try {
      BufferedReader in = new BufferedReader(new FileReader("mypage.html"));
      String str;
      while ((str = in.readLine()) != null) {
          contentBuilder.append(str);
      }
      in.close();
 } catch (IOException e) {
      System.err.println("HTML File Read Error: " + e.getMessage());
 }
 String content = contentBuilder.toString();