Question

我想读取一个html文件行和行，需要存储元素。对于textbox，我必须将id，name，type属性值存储到某个集合中。在同一个我需要获取复选框，radiobox等属性

他们的任何API都是逐行解析html文件。

Answer 1

您可以使用 DOM Parser 并阅读所有元素和属性。或者您可以使用基于DOM Parser的此库（jsoup）。

Answer 2

不，因为那没有意义：HTML没有“行”的有用概念。您需要做的是按元素阅读HTML 元素。

XML有很多解析器，但HTML更宽松，所以你需要一个特殊的解析器。试试JTidy。

Answer 3

NekoHTML是您可以使用的众多html解析器之一。

Answer 4

使用班级StringBuilder

 StringBuilder contentBuilder = new StringBuilder();
 try {
      BufferedReader in = new BufferedReader(new FileReader("mypage.html"));
      String str;
      while ((str = in.readLine()) != null) {
          contentBuilder.append(str);
      }
      in.close();
 } catch (IOException e) {
      System.err.println("HTML File Read Error: " + e.getMessage());
 }
 String content = contentBuilder.toString();

使用java逐行读取html文件

4 个答案: