解析一个注入为String的htmlpage? (字符串到XML)

时间:2011-03-03 09:21:37

标签: java xml nsxmlparser

我把它作为我的prepareXml方法的字符串

<TBODY>
<TR>
<TD colSpan=4>Detail of your Trip</TD></TR>
<TR></TR>
<TR>
<TD colSpan=4>Booking Ref. : XXX</TD></TR>
<TR></TR>
 <TR>
 <TD>Client</TD>
 <TD colSpan=2>Ticket Number</TD>
 <TD>FOID</TD></TR>
 <TR>
 <TD>Person (ADT)</TD>
 <TD colSpan=2>000000</TD>
<TD>XXXX</TD></TR>
 <TR></TR>
  <TR>
 <TD>From: Location 1</TD>
 <TD>To : Location 2</TD>
 <TD colSpan=2>Flight : LLL</TD></TR>
<TR>
<TD colSpan=2></TD>
<TD colSpan=2>Departure : 14Aug, 15:55 Latest check-in time limit : 15:25 </TD></TR>
<TR>
<TD colSpan=2></TD>
<TD colSpan=2>Arrival : 17:25</TD></TR>
<TR>
<TD colSpan=2></TD>
<TD colSpan=2>Class N</TD></TR>
<TR>
<TD>From : Location 2</TD>
<TD>To :Location1</TD>
<TD colSpan=2>Flight : AF2585 Resa : OK</TD></TR>
<TR>
<TD colSpan=2></TD>
<TD colSpan=2>Departure : "Time" Latest check-in time limit : "Time" </TD></TR>
<TR>
<TD colSpan=2></TD>
<TR>
<TD colSpan=2></TD>

N级

我将此作为字符串,我应该解析它并将其作为xml发送

我想获得航班号码票号,以及出发地点,到达地点..还要检查它是单向还是双向..

我怎么能这样做..因为它真的很大,解析它的最佳方法是什么?

帮助表示赞赏。

1 个答案:

答案 0 :(得分:1)

您可以使用例如NekoHTML来解析HTML。 Neko是一个开源解析器/标记平衡器,它允许您使用常规XML操作来遍历和提取​​文档中的信息。如,

String html = ...
DOMParser parser = new DOMParser();
parser.parse(new InputSource(new ByteArrayInputStream(html.getBytes())));
Document = parser.getDocument(); // standard org.w3c.dom.Document

在此阶段,您可以将其连接到XPATH解析器,例如Jaxen,以便更方便地提取所需信息。