Question

我想从我的自定义gensim模型中聚类3.5M 300维word2vec向量，以确定是否可以使用这些聚类来查找与主题相关的单词。它与model.most_similar_...不同，因为我希望附加相当遥远但仍然相关的词语。

模型的总体大小（在向量归一化之后，即model.init_sims(replace=True)）在内存中是4GB：

words = sorted(model.wv.vocab.keys())
vectors = np.array([model.wv[w] for w in words]) 
sys.getsizeof(vectors)
4456416112

我尝试了scikit的DBSCAN以及GitHub的其他一些实现，但是在处理过程中它们似乎消耗了越来越多的RAM，并且在一段时间之后崩溃了std::bad_alloc。我有32 GB的RAM和130GB的交换。

问题是我不知道群集的数量，并希望通过设置密切相关的词的阈值来确定它们（让它为cos<0.48或d_l2 < sqrt(2-2*0.48)）。 DBSCAN似乎在处理小子集，但我无法通过完整数据计算。

Python中是否有任何算法或解决方法可以帮助解决这个问题？

编辑：距离矩阵似乎是一个大小（浮点）= 4字节：3.5M * 3.5M * 4/1024（KB）/ 1024（MB）/ 1024（GB）/ 1024（TB）= 44.5 TB，所以不可能预先计算它。

EDIT2：目前正在尝试使用ELKI，但无法正确地对玩具子集上的数据进行聚类。