懒惰地解析非常大的xml

时间:2012-11-01 19:33:31

标签: scala xml-parsing

我有一个巨大的xml文件(40 gbs)。我想从中提取一些字段而不将整个文件加载到内存中。有什么建议吗?

3 个答案:

答案 0 :(得分:22)

基于SAXParser here教程的XMLEventReader的快速示例(由Rinat Tainov发布)。

我确信它可以做得更好但只是为了显示基本用法:

import scala.io.Source
import scala.xml.pull._

object Main extends App {
  val xml = new XMLEventReader(Source.fromFile("test.xml"))

  def printText(text: String, currNode: List[String]) {
    currNode match {
      case List("firstname", "staff", "company") => println("First Name: " + text)
      case List("lastname", "staff", "company") => println("Last Name: " + text)
      case List("nickname", "staff", "company") => println("Nick Name: " + text)
      case List("salary", "staff", "company") => println("Salary: " + text)
      case _ => ()
    }
  }

  def parse(xml: XMLEventReader) {
    def loop(currNode: List[String]) {
      if (xml.hasNext) {
        xml.next match {
          case EvElemStart(_, label, _, _) =>
            println("Start element: " + label)
            loop(label :: currNode)
          case EvElemEnd(_, label) =>
            println("End element: " + label)
            loop(currNode.tail)
          case EvText(text) =>
            printText(text, currNode)
            loop(currNode)
          case _ => loop(currNode)
        }
      }
    }
    loop(List.empty)
  }

  parse(xml)
}

答案 1 :(得分:2)

用户SAXParser,它不会将整个xml加载到内存中。 Here很好的java示例,很容易在scala中使用。

答案 2 :(得分:2)

如果您对替代xml库感到满意,那么Scales Xml提供了三种主要的解析方法:

  1. Iterator based - 只需使用hasNext,然后获取更多项
  2. iterate function - 提供迭代器,但是对于通过简单路径标识的树
  3. Iteratee based - 允许多个路径的组合
  4. 即将推出的0.5版本的重点是通过aalto-xml进行异步解析,允许其他非阻塞控制选项。

    在所有情况下,您都可以控制内存使用情况以及使用Scales处理文档的方式。