替代大型数据集的neo4j批处理导入程序

时间:2016-06-08 12:18:40

标签: python neo4j neo4j-batch-inserter large-data

我正在尝试将大型数据集导入neo4j。我创建了一个Python脚本,在读取.xls文件后将cypher查询写入.cql文件,然后使用neo4j-shell运行它们。这适用于小型数据集。但是在增加数据集的大小时,我的系统崩溃了。

我看到很少使用批量导入程序的建议,但它们通常基于Java(例如:Groovy),这是我不习惯使用的东西。那么有没有替代批量插入或至少通过Python插入批处理?

1 个答案:

答案 0 :(得分:1)

您可以尝试使用Neo4J 加载CSV 工具/密码命令。 它非常灵活,可以与 USING PERIODIC COMMIT 一起使用,通过定期提交来处理非常大的数据集,以防止缓冲区溢出问题并进一步优化过程。

唯一的先决条件是您能够以CSV格式导出原始数据。

  

http://neo4j.com/developer/guide-import-csv/

     

http://neo4j.com/docs/developer-manual/current/#cypher-query-lang(第8.6节)