algorithm - 找到一组彼此最大距离的点的子集？

我有一个csv文件，格式如下：

thing1_id, thing2_id, similarity

相似度介于50和100之间。我已经过滤掉了相似度小于50的所有对，但我确实有最低位于25左右的全套。目前有重复的比较，即thing1 -thing2是与thing2-thing1分开的条目。

我有兴趣编写一个程序，该程序将采用相似度阈值和每组最小项目数（n），并给我所有大小为n或更大的集合至少s％与该集合中的所有其他元素相似。

我认为图表可能是最好的数据结构吗？每个东西都是一个节点，相似性是加权边缘。我不太确定从哪里离开这里而不会占用太多记忆。这是一套约400件事。