使用java将XML文件转换为CSV文件

时间:2014-01-28 18:35:06

标签: java xml csv

我需要帮助了解使用java将XML文件转换为CSV文件所涉及的步骤。 这是一个XML文件的示例

<?xml version="1.0"?>
<Sites>
<Site id="101" name="NY-01" location="New York">
    <Hosts>
        <Host id="1001">
           <Host_Name>srv001001</Host_Name>
           <IP_address>10.1.2.3</IP_address>
           <OS>Windows</OS>
           <Load_avg_1min>1.3</Load_avg_1min>
           <Load_avg_5min>2.5</Load_avg_5min>
           <Load_avg_15min>1.2</Load_avg_15min>
        </Host>
        <Host id="1002">
           <Host_Name>srv001002</Host_Name>
           <IP_address>10.1.2.4</IP_address>
           <OS>Linux</OS>
           <Load_avg_1min>1.4</Load_avg_1min>
           <Load_avg_5min>2.5</Load_avg_5min>
           <Load_avg_15min>1.2</Load_avg_15min>
        </Host>
        <Host id="1003">
           <Host_Name>srv001003</Host_Name>
           <IP_address>10.1.2.5</IP_address>
           <OS>Linux</OS>
           <Load_avg_1min>3.3</Load_avg_1min>
           <Load_avg_5min>1.6</Load_avg_5min>
           <Load_avg_15min>1.8</Load_avg_15min>
        </Host>
        <Host id="1004">
           <Host_Name>srv001004</Host_Name>
           <IP_address>10.1.2.6</IP_address>
           <OS>Linux</OS>
           <Load_avg_1min>2.3</Load_avg_1min>
           <Load_avg_5min>4.5</Load_avg_5min>
           <Load_avg_15min>4.2</Load_avg_15min>
        </Host>     
    </Hosts>
</Site>
</Sites>

这是生成的CSV文件。

site_id, site_name, site_location, host_id, host_name, ip_address, operative_system, load_avg_1min, load_avg_5min, load_avg_15min
101, NY-01, New York, 1001, srv001001, 10.1.2.3, Windows, 1.3, 2.5, 1.2
101, NY-01, New York, 1002, srv001002, 10.1.2.4, Linux, 1.4, 2.5, 1.2
101, NY-01, New York, 1003, srv001003, 10.1.2.5, Linux, 3.3, 1.6, 1.8
101, NY-01, New York, 1004, srv001004, 10.1.2.6, Linux, 2.3, 4.5, 4.2

我在考虑使用DOM解析器来读取xml文件。我遇到的问题是我需要按名称指定代码中的特定元素,但我希望它能够解析它而不这样做。

java中是否有任何工具或库可以帮助我实现这一目标。

如果我在下面有这种格式的XML文件,并希望在MSgId的同一行中添加InitgPty的值(请注意:InitgPty在下一个标记级别,所以它在下一行打印值)

<?xml version="1.0"?>
<CstmrCdtTrfInitn>
<GrpHdr>
<MsgId>XYZ07/ABC</MsgId>
<NbOfTxs>100000</NbOfTxs>
<InitgPty>
<Nm>XYZ</Nm>
</InitgPty>

6 个答案:

答案 0 :(得分:25)

这是一个有效的示例,data.xml包含您的数据:

import java.io.File;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.transform.Result;
import javax.xml.transform.Source;
import javax.xml.transform.Transformer;
import javax.xml.transform.TransformerFactory;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;
import javax.xml.transform.stream.StreamSource;

import org.w3c.dom.Document;

class Xml2Csv {

    public static void main(String args[]) throws Exception {
        File stylesheet = new File("src/main/resources/style.xsl");
        File xmlSource = new File("src/main/resources/data.xml");

        DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
        DocumentBuilder builder = factory.newDocumentBuilder();
        Document document = builder.parse(xmlSource);

        StreamSource stylesource = new StreamSource(stylesheet);
        Transformer transformer = TransformerFactory.newInstance()
                .newTransformer(stylesource);
        Source source = new DOMSource(document);
        Result outputTarget = new StreamResult(new File("/tmp/x.csv"));
        transformer.transform(source, outputTarget);
    }
}

style.xsl

<?xml version="1.0"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" xmlns:fo="http://www.w3.org/1999/XSL/Format" >
<xsl:output method="text" omit-xml-declaration="yes" indent="no"/>
<xsl:template match="/">
Host_Name,IP_address,OS,Load_avg_1min,Load_avg_5min,Load_avg_15min
<xsl:for-each select="//Host">
<xsl:value-of select="concat(Host_Name,',',IP_address,',',OS,Load_avg_1min,',',Load_avg_5min,',',Load_avg_15min,'&#xA;')"/>
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>

输出:

Host_Name,IP_address,OS,Load_avg_1min,Load_avg_5min,Load_avg_15min
srv001001,10.1.2.3,Windows1.3,2.5,1.2
srv001002,10.1.2.4,Linux1.4,2.5,1.2
srv001003,10.1.2.5,Linux3.3,1.6,1.8
srv001004,10.1.2.6,Linux2.3,4.5,4.2

答案 1 :(得分:2)

三个步骤:

  1. 将XML文件解析为java XML library对象。
  2. 来自每行对象的
  3. Retrieve relevant data
  4. Write the results to a text file using native java functions,使用* .csv扩展程序保存。

答案 2 :(得分:2)

您最好的方法是使用XSLT将XML“转换”为CSV。有一些Q / As(如here),涵盖了如何做到这一点。关键是为源数据提供模式,以便XSLT转换过程知道如何读取它,以便正确格式化结果。

然后您可以使用Xalan输入XML,阅读XSLT并输出结果。

答案 3 :(得分:1)

答案已经由1月份的Pedantic(使用类似DOM的方法{文档对象模型})和Jono(这次使用类似SAX的方法)提供。

我的观点是这两种方法都适用于小文件,但后者适用于大型XML文件。您没有提到XML文件的实际大小,但您应该考虑到这一点。

无论使用哪种方法,特定程序(可以检测为您的本地XML定制的特殊标记)都会更容易编写,但如果没有代码适应另一种XML风格,它将无法工作,而更通用的程序将更难设计,但将适用于所有XML文件。 你说你希望能够在不指定特定元素名称的情况下解析文件,所以我想通用方法是你喜欢的,我同意这一点,但请注意,说起来容易做起来难。 事实上,我在1月也有同样的问题,这意味着这次是一个大的XML文件(&gt;&gt;&gt; 100Mo),我很惊讶到目前为止在互联网上没有任何东西可用。 将挫折转化为更好的事情总是一件好事,所以我决定自己以最通用的方式处理该特定问题,特别关注 big-XML-file-issue

您可能有兴趣知道我编写的通用Java库(现在作为免费软件发布)将您的XML文件转换为CSV格式(在-x -u模式下){请参阅文档以获取更多信息信息})。

所以问题的最后一部分的答案是:是的,至少有一个库可以帮助你实现你的目标,我的名字是&#34; XML2CSV-Generic-Converter&#34;。 当然可能还有其他的,肯定会有更好的,但我自己也找不到任何体面的(免费的)。

我在这里没有提供任何链接以遵守Peter Foti的明智评论 - 但如果你键入了&#34; XML2CSV-Generic-Converter&#34;在你最喜欢的搜索引擎中,你应该很容易找到它。

答案 4 :(得分:0)

您的文件看起来非常扁平和简单。您不一定需要XML解析器来转换它。 只需使用LineNumberReader.readLine()进行解析,然后使用regexp提取特定字段。

另一种选择是使用StAX,一种用于XML处理的流API。它非常简单,您无需将整个文档加载到RAM中。

答案 5 :(得分:0)

http://beanio.org/2.1/docs/reference/index.html#Records这是一种快速而强大的解决方案。