如何在XSLT中检测换行符

时间:2012-12-30 18:41:53

标签: xslt xpath

我需要能够输出由换行符分隔的XML文档的文本。换句话说,XML:

<programlisting>
public static void main(String[] args){
    System.out.println("Be happy!");  
    System.out.println("And now we add annotations.");  
}
</programlisting>

需要表示为:

<para>public static void main(String[] args){</para>
<para>    System.out.println("Be happy!"); </para>
<para>    System.out.println("And now we add annotations.");  </para>
<para>}</para>

我认为我应该能够使用substring-before(。,'\ n'),但由于某种原因它不能识别换行符。

我还尝试将每一行输出为CDATA部分,以便我可以单独提取这些部分,但遇到这样一个事实:它们都被一起刷成一个文本节点。

我只是在这里使用常规Java进行转换。关于如何实现这一目标的任何想法?

...谢谢

2 个答案:

答案 0 :(得分:1)

正如this answer中所解释的那样,XML中的所有换行符都被视为实体&#10;。这意味着,要在换行符处拆分字符串,您必须在此实体处拆分。

因此,普通XSLT 1.0(没有扩展名)的解决方案可能如下所示:

<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
    version="1.0">
  <xsl:output indent="yes"/>

  <xsl:template match="@*|node()">
    <xsl:copy>
      <xsl:apply-templates select="@*|node()"/>
    </xsl:copy>
  </xsl:template>

  <xsl:template match="programlisting/text()">
    <xsl:param name="text" select="."/>
    <para>
      <!-- Because we would rely on $text containing a line break when using 
           substring-before($text,'&#10;') and the last line might not have a
           trailing line break, we append one before doing substring-before().  -->
      <xsl:value-of select="substring-before(concat($text,'&#10;'),'&#10;')"/>
    </para>
    <xsl:if test="contains($text,'&#10;')">
      <xsl:apply-templates select=".">
        <xsl:with-param name="text" select="substring-after($text,'&#10;')"/>
      </xsl:apply-templates>
    </xsl:if>
  </xsl:template>
</xsl:stylesheet>

使用您给定的XML源,这会在第一个和最后一个换行符输出一些空的<para>元素。人们也可以检查空行(像Dimitre那样)。然而,这也删除了代码清单中间某处的空行。如果在开始和结束时删除空行很重要,同时在中间保留空行,则需要一些更聪明的方法。

这只是证明使用普通的XSLT 1.0完成任务并不困难。

答案 1 :(得分:0)

<强>予。 XSLT 2.0解决方案:

<xsl:stylesheet version="2.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 <xsl:output omit-xml-declaration="yes" indent="yes"/>

 <xsl:template match="node()|@*">
  <xsl:copy>
   <xsl:apply-templates select="node()|@*"/>
  </xsl:copy>
 </xsl:template>

 <xsl:template match="text()">
  <xsl:for-each select="tokenize(., '\n\r?')[.]">
   <para><xsl:sequence select="."></xsl:sequence></para>
  </xsl:for-each>
 </xsl:template>
</xsl:stylesheet>

在提供的XML文档上应用此转换时:

<programlisting>
public static void main(String[] args){
    System.out.println("Be happy!");
    System.out.println("And now we add annotations.");
}
</programlisting>

产生了想要的正确结果:

<programlisting>
   <para>public static void main(String[] args){</para>
   <para>    System.out.println("Be happy!");</para>
   <para>    System.out.println("And now we add annotations.");</para>
   <para>}</para>
</programlisting>

<强> II。 XSLT 1.0解决方案,使用str-split-to-wordsFXSL模板:

<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
 xmlns:ext="http://exslt.org/common" exclude-result-prefixes="ext">
  <xsl:import href="strSplit-to-Words.xsl"/>
  <xsl:output indent="yes" omit-xml-declaration="yes"/>

   <xsl:strip-space elements="*"/>
   <xsl:output indent="yes" omit-xml-declaration="yes"/>

   <xsl:param name="pDelims" select="'&#xA;&#xD;'"/>

    <xsl:template match="/">
      <xsl:variable name="vwordNodes">
        <xsl:call-template name="str-split-to-words">
          <xsl:with-param name="pStr" select="/"/>
          <xsl:with-param name="pDelimiters"
                          select="$pDelims"/>
        </xsl:call-template>
      </xsl:variable>

      <xsl:apply-templates select=
      "ext:node-set($vwordNodes)/*[normalize-space()]"/>
    </xsl:template>

    <xsl:template match="word">
      <para><xsl:value-of select="."/></para>
    </xsl:template>
</xsl:stylesheet>

当此转换应用于同一XML文档(上图)时,会产生相同的正确结果

<para>public static void main(String[] args){</para>
<para>    System.out.println("Be happy!");</para>
<para>    System.out.println("And now we add annotations.");</para>
<para>}</para>