Java XML:将深度对齐结构转换为宽度对齐结构

时间:2013-05-23 13:45:22

标签: java xml structure flat

这个问题指的是我们无法找到它的算法。问题如下:

我们有一个包含深度对齐结构的XML(具体来说是一个包含content.xml的ODT文件):

<root xmlns:text="someuri">
<header>
...
</header>
<body>
    <text:span dns:att01="value">
        some text
    </text:span>
    <text:span dns:att02="value">
        more text
        <text:span dns:att03="value">
            even nested structures
        </text:span>
    </text:span>
</body>
</root>

请注意,这是一个简单示例,仅包含必要的详细信息。如您所见,这看起来像一个“普通”的xml结构,其根包含一些文本和span节点。对于我们的应用,我们需要做一些处理。由于所有span节点都包含其他节点,形成树状结构,因此需要转换目标格式以使文本节点进行宽度对齐。这是所需的格式:

<root xmlns:text="someuri">
<header>
...
</header>
<body>
    <text:marker-begin text:name="01" />
        some text
    <text:marker-end text:name="01" />
    <text:marker text:name="01" />

    <text:marker-begin text:name="02" />
        more text
        <text:marker-begin text:name="03" />
            even nested structures
        <text:marker-end text:name="03" />
        <text:marker text:name="03" />
    <text:marker-end text:name="02" />
    <text:marker text:name="02" />

</body>
</root>

不要让缩进激怒你,所有文本节点都可能有一个直接父节点,除了正文节点。标记用于从第三方软件触发某个功能。现在,所需的文本注释被涉及标记机制的空元素所包围。现在,经过一些冗长的准备,问题本身就是:

如何使用java提供的默认DOM机制将结构一转换为结构二。这甚至可能吗?您是否建议使用SAX方法来收集span节点的开始和结束元素?此问题是否已存在算法?由于侧面处理链,XLST是不可能的,必须在此过程中完成。

1 个答案:

答案 0 :(得分:0)

我们通过使用脏技巧找到了解决方案:

我们有一个广度优先的遍历器实现(在这里使用TreeWalker没有任何意义)将所需的操作委托给处理函数:

// local field
Queue queue;

void traverse()
{
    queue = new LinkedListed();
    queue.add(documentRoot);

    queue.add(root);
    while (!queue.isEmpty()) 
    {
        current     = queue.poll();
        children    = current.getChildNodes();

        // the delegate
        process(current);

        for (int i = 0; i < children.getLength(); i++) 
        {
            child = children.item(i);
            switch(child.getNodeType())
            {
            case Node.ELEMENT_NODE:
            case Node.TEXT_NODE:
                queue.add(child);
                break;
            }
        } // end iteration over childnodes
    }
}

这是处理函数:

void process(Node node)
{
            String name                     = node.getNodeName();
        Map<String, String> attributes      = XMLUtil.extractAttributes(node);

        // this is basically the current node, but we need to save it as
        // extra reference to copy all child elements from it, to further process
        // the document tree
        Node target = null;
        Node next   = null;
        Node parent = node.getParentNode();

        if(name.equals("text:" + TARGET_ELEMENT)) {
            // deep copy
            target = node.cloneNode(true);

            // create the three relevant bookmark nodes
            Node bkMrkStart = document.createElement("bookmark-begin");
            Node bkMrkEnd   = document.createElement("bookmark-end");
            Node bkMrkRsd   = document.createElement("bookmark");

            // insert bookmark start
            node.getParentNode().insertBefore(bkMrkStart, node);

            // get next sibling or null, if last elment
            next = node.getNextSibling();

            // insert ending bookmark and 'residue'
            parent.insertBefore(bkMrkRsd, next);
            parent.insertBefore(bkMrkEnd, bkMrkRsd);

            // create new its tag element
            AuxiliaryElement nextAux = createAuxiliary(attributes);


            // apply generated id to created bookmarks
            XMLUtil.setAttribute(
                    "text:span", 
                    "id-[" + nextAux.getId().getString() + "]", 
                    bkMrkStart, bkMrkEnd, bkMrkRsd);


            NodeList children = target.getChildNodes();

            int index = 0;
            do
            {
                Node child = children.item(index).cloneNode(true);
                // it seems necessary to extra save this element
                            // for further processing
                queue.add(child);

                parent.insertBefore(child, bkMrkEnd);
            } while(++index < children.getLength());

            // delete old element
            parent.removeChild(node);

            // clear target
            target = null;
        }
}

看起来像#removeChild或#insertBefore没有被遍历反映出来。可能是,这是由于我们自己实现了广度优先的遍历。但是,如上所述使用这种方法可以得到理想的结果。