performance - 计算所有用户对的相似性得分

......那就是说，我会试着回答你实际问的问题。您未能提供您的代码或错误消息，因此我正在解决实际问题。

N个用户的可能对数是N（N-1）/ 2;对于大的N值，这实际上是N ^ 2 / 2.对于2E5用户，这可能是2E10对可能的对：200亿对。我说你的最小存储空间是每个32位的用户ID，加上4个字节用于相似性度量。每对12个字节，给我们240Gb的内存。

您还没有对您的算法，数据方法或您正在使用的语言说过一句话。如果您正在尝试在RAM中进行所有这些计算，当然，那么您的内存限制就会大大增加！

您已经进入了大数据＆＃34;范围内。使用这些工具开始搜索。我不知道您的项目资源，工具建议远远超出StackOverflow的范围。

当然，如果您对算法非常小心，那么您将能够处理这个问题。您只保留内存中的裸用户信息，可能是用户ID键入的评级。计算相似度时，将其缓冲以写入磁盘。

计算相似度后是否需要进行更多处理，或者通过编写文件完成任务？如果您需要做更多工作，您可能需要一个具有良好ETL支持和数据访问功能的大数据工具集，以适应您尚未描述的所有项目方面。