如何还原XML转义字符(XML unescape)?

时间:2013-03-14 10:18:20

标签: xml scala

我希望Scala函数在给定输入&时返回String &,类似于所有其他XML转义字符。

我试图使用xml.Unparsed,可能是以错误的方式,它没有给出我想要的输出:

scala> val amp = '&'
amp: Char = &

scala> <a>{amp}</a>.toString
res0: String = <a>&amp;</a>

scala> import scala.xml._
import scala.xml._

scala> <a>{amp}</a>.child(0)
res1: scala.xml.Node = &amp;

scala> xml.Unparsed(<a>{amp}</a>.child(0).toString)
res2: scala.xml.Unparsed = &amp;

我还试图使用xml.Utility.unescape,但它根本不提供任何输出:

scala> val sb = new StringBuilder
sb: StringBuilder = 

scala> xml.Utility.unescape("&amp;", sb)
res0: StringBuilder = null

scala> sb.toString
res1: String = ""

scala> 

2 个答案:

答案 0 :(得分:6)

如果您只想从XML对象中获取非转义字符串,text是您的朋友:

scala> val el = <a>{amp}</a>
el: scala.xml.Elem = <a>&amp;</a>
scala> el.child(0)
res4: scala.xml.Node = &amp;
scala> el.child(0).text
res5: String = &

这项工作的实施工作在scala.xml.EntityRef。获取一个能够完全满足您要求的函数并不是非常简单,因为库不进行文本解析(由Java SAX解析器完成),因此您首先需要将"&amp;"转换为{ {1}}这样你就可以调用它,考虑到EntityRef的实现有多么简单,这似乎是一大堆浪费。

答案 1 :(得分:0)

我在scala.xml.Utility中找不到任何东西...... 我用它快速而肮脏地做了:

def unescape(text: String): String = {
  def recUnescape(textList: List[Char], acc: String, escapeFlag: Boolean): String = {
    textList match {
      case Nil => acc
      case '&' :: tail => recUnescape(tail, acc, true)
      case ';' :: tail if (escapeFlag) => recUnescape(tail, acc, false)
      case 'a' :: 'm' :: 'p' :: tail if (escapeFlag) => recUnescape(tail, acc + "&", true)
      case 'q' :: 'u' :: 'o' :: 't' :: tail if (escapeFlag) => recUnescape(tail, acc + "\"", true)
      case 'l' :: 't' :: tail if (escapeFlag) => recUnescape(tail, acc + "<", true)
      case 'g' :: 't' :: tail if (escapeFlag) => recUnescape(tail, acc + ">", true)
      case x :: tail => recUnescape(tail, acc + x, true)
      case _ => acc
    }
  }
  recUnescape(text.toList, "", false)
}