Clojure - 加速大文件处理

时间:2015-04-22 22:20:18

标签: clojure large-files

我需要读取大文件(~1GB),处理它并保存到db。我的解决方案看起来像这样:

data.txt中

格式:[id],[title]\n

1,Foo
2,Bar
...

(ns test.core
  (:require [clojure.java.io :as io]
            [clojure.string :refer [split]]))

(defn parse-line
  [line]
  (let [values (split line #",")]
    (zipmap [:id :title] values)))

(defn run
  []
  (with-open [reader (io/reader "~/data.txt")]
    (insert-batch (map parse-line (line-seq reader)))))

; insert-batch just save vector of records into database

但是这段代码效果不好,因为它首先解析所有行,然后将它们发送到数据库中。

我认为理想的解决方案是read line -> parse line -> collect 1000 parsed lines -> batch insert them into database -> repeat until there is no lines。不幸的是,我不知道如何实现这一点。

1 个答案:

答案 0 :(得分:12)

一个建议:

  • 使用line-seq获取一系列懒惰的行

  • 使用map来解析每一行,

(到目前为止,这与你正在做的事情相符)

  • 使用partition-all将已解析行的懒惰序列划分为批次,然后

  • 使用带有doseq的插入批处理将每个批次写入数据库。

一个例子:

(->> (line-seq reader)
     (map parse-line)
     (partition-all 1000)
     (#(doseq [batch %] 
       (insert-batch batch))))