优化填充矩阵的速度

时间:2016-05-01 16:33:17

标签: r performance optimization matrix sparse-matrix

我试图在R中填入一个最终是对称的大矩阵(55920484个元素)(所以我实际上只对矩阵的一半进行计算)。结果值矩阵是一个方形矩阵,具有相同的行和列名称。矩阵中的每个值都是比较唯一列表和计算交叉点数量的结果。这些数据来自更大的数据帧(427.5 Mb)。到目前为止,这是我最快的解决方案,我试图摆脱我知道很慢的循环:

for(i in 1:length(rownames(values))){
  for(j in i:length(colnames(values))){
    A = data[data$Stock==rownames(values)[i],"Fund"]
    B = data[data$Stock==colnames(values)[j],"Fund"]
    values[i, j] = length(intersect(A, B))
  }
}

我尝试了其他几种方法,例如使用带有SQL连接的数据库,使用带有0和1的稀疏矩阵,以及使用R中的sqldf包。

以下是我的数据结构:

head(data)

  Fund                          Stock Type Shares.Held Maket.Value X..of.Portfolio Rank Change.in.Shares X..Change X..Ownership
1 12 WEST CAPITAL MANAGEMENT LP  GRUB CALL      500000    12100000          0.0173   12           500000       New          N/A
2 12 WEST CAPITAL MANAGEMENT LP  FIVE   SH      214521     6886000          0.0099   15           214521       New            0
3 12 WEST CAPITAL MANAGEMENT LP  SHAK   SH      314114    12439000          0.0178   11           307114      4387            1
4 12 WEST CAPITAL MANAGEMENT LP  FRSH   SH      324120     3650000          0.0053   16          -175880       -35            2
5 12 WEST CAPITAL MANAGEMENT LP  ATRA   SH      393700    10398000          0.0149   14           162003        69            1
6 12 WEST CAPITAL MANAGEMENT LP  ALNY   SH      651000    61285000          0.0875    4        No Change         0            1

1 个答案:

答案 0 :(得分:1)

我看到三个问题,按重要性增加:

(1)你多次调用rownames(values)和colnames(values),而不是只在循环之外调用它们一次。这可能会有所帮助。也可能没有帮助。

(2)你在最里面的循环下计算A = data[data$Stock==rownames(values)[i],"Fund"],而你应该在这个循环之外计算它。

(3)最重要的是:您的代码只使用表格的两列:基金和股票。我看到在您的数据中有许多行,基金和股票都相同。你应该消除这种冗余。也许你想创建data1=data[,c("Fund","Stock")]并消除data1中的冗余行(没有循环):

data1 = data1[,order(data1[,"Fund"])]
len = nrow(data1)
good = c(TRUE,data1[-len,1]!=data1[-1,1]|data1[-len,2]!=data1[-1,2])
data1 = data1[good,]

(我没有测试上面的代码)

也许你想进一步创建一个列表,对于每个基金,它列出了它包含的股票,没有裁员。

PS:你仍然可以创建一个列表,对于每个股票,它指定了哪些资金:

rv = rownames(values)
len = length(rv)
fund.list = list()
for (i in 1:len)
    fund.list[[,i]] = data[data$Stock==rv[i],"Fund"]
for (i in 1:len) {
    A = fund.list[[i]]
    for (j in i:len) {
        values[i, j] = length(intersect(A, fund.list[[j]]))
    }
}