Question

我有一个大数据文件（~1GB），我想将它拆分成较小的文件。我手头有R并计划使用它。

将整个加载到内存中无法完成，因为我会得到＆＃34;无法为xxx＆＃34;的向量分配内存。错误信息。

然后我想使用read.table（）函数和参数skip和nrows来只读取部分文件。然后保存到单个文件中。

要做到这一点，我想首先知道大文件中的行数，这样我就可以锻炼我应该为单个文件设置多少行以及我应该拆分多少个文件。

我的问题是：如何在没有将其完全加载到R的情况下从大数据文件中获取行数？

假设我只能使用R.所以不能使用任何其他编程语言。

谢谢。

Answer 1

计算行应该非常简单 - 请查看本教程http://www.exegetic.biz/blog/2013/11/iterators-in-r/（＆＃34;迭代行部分）。要点是使用ireadLines打开文件

上的迭代器

Answer 2

对于Windows，this之类的内容应该可以正常工作

fname <- "blah.R"  # example file
res <- system(paste("find /v /c \"\"", fname), intern=T)[[2]]
regmatches(res, gregexpr("[0-9]+$", res))[[1]]
# [1] "39"

拆分R中的大数据

2 个答案: