htmlparser问题

时间:2011-04-04 20:58:07

标签: java html-parsing

使用htmlparser(http://htmlparser.sourceforge.net/)我一直在尝试从html表中提取信息(Content1 + Link)。

示例html:

<td class="xx">
    <a href="http://link">Content1</a>
</td>

java代码:

CssSelectorNodeFilter cssFilter = new CssSelectorNodeFilter("td[class=\"xx\"]");
NodeList nodes = parser.parse(cssFilter);

resultSet = new String[nodes.size()][2];

for (int i=0;i<nodes.size();i++) {
    resultSet[i][0]=nodes.elementAt(i).toPlainTextString().trim();

    LinkTag tag = (LinkTag) (nodes.elementAt(i));
    resultSet[i][1]=tag.getLink();
}

我可以毫无问题地提取第一部分(Content1字符串),但是我无法获取链接。它要么说我不能强制转换TextNode(使用上面的代码),要么返回null。

如上所述 - 结果:TableColumn无法强制转换为LinkTag

LinkTag tag = (LinkTag) (nodes.elementAt(i));
resultSet[i][1]=tag.getLink();

结果:无法将TextNode强制转换为LinkTag

   LinkTag tag = (LinkTag) (nodes.elementAt(i).getFirstChild());
    resultSet[i][1]=tag.getLink();

结果:NullPointer

 LinkTag tag = (LinkTag) (nodes.elementAt(i).getFirstChild().getFirstChild());
    resultSet[i][1]=tag.getLink();

结果:返回null

 Tag tag = (Tag) (nodes.elementAt(i));
    resultSet[i][1]=tag.getAttribute("href");

感谢您的任何想法/解决方案=)

1 个答案:

答案 0 :(得分:4)

如果您打印出<TD>标记的内容,则会获得:

Tag (27[2,8],42[2,23]): td class="xx"
  Txt (42[2,23],56[3,12]): \n
  Tag (56[3,12],75[3,31]): a href="foo.html"
    Txt (75[3,31],78[3,34]): bar
    End (78[3,34],82[3,38]): /a
  Txt (82[3,38],92[4,8]): \n
  End (92[4,8],97[4,13]): /td

因此,你想要的是TD的第一个孩子的兄弟姐妹 - 尽管你受到了表中任何格式的摆布。

要查找表格数据中的第一个链接,您可以使用以下代码:

public static void main(String[] args) throws Exception {
    Parser parser = new Parser("file:test.html");
    CssSelectorNodeFilter cssFilter = new CssSelectorNodeFilter("td[class=\"xx\"]");
    NodeList nodes = parser.parse(cssFilter);
    String[][] resultSet = new String[nodes.size()][2];
    for (int i=0;i<nodes.size();i++) {
        Node n = nodes.elementAt(i);
        System.out.println(n); // DEBUG remove me!
        resultSet[i][0]=n.toPlainTextString().trim();
        resultSet[i][1]=null;
        Node c = n.getFirstChild();
        while( c!=null ) {
            if( c instanceof LinkTag ) {
                resultSet[i][1] = ((LinkTag) c).getLink();
                break;
            }
            c = c.getNextSibling();
        }

        System.out.println(i+" text :"+resultSet[i][0]); // DEBUG remove me!
        System.out.println(i+" link :"+resultSet[i][1]); // DEBUG remove me!
    } 
}