我应该如何处理大型数据集

时间:2019-06-15 19:09:50

标签: c memory

我想最大化形式的似然函数 L

L(\ theta,x_1,\ ldots,x_13)= \ sum_ {k = 1} ^ 13 l_k(x_k)

关于$ \ theta $,其中 x_k 是一个大型数据集(每个大约9GB)。

我有一个代码C,可以独立计算每个 l_k 函数。对于数值优化器的每次迭代,我必须再次加载每个 x_k ,因为我的计算机不会同时加载所有它们。它抱怨记忆。

当前,编写代码是为了将 x_k 和其他大型数组存储为全局变量。

我也一直在进行并行化,但是我不确定什么是最好的方法(我可以并行化 l_k 的计算或 l_k中的循环),我已经读到使用全局变量是净的。推荐在并行化时使用。

有什么建议吗?

对不起,数学...

0 个答案:

没有答案