validation - Rand和Jaccard相似性指数的区别？

我在计算生物学硕士论文中使用过这些，所以希望我能以一种有助于你的方式回答这个问题 -

较短的版本 -

J = TP /（TP + FP + FN），而R =（TP + TN）/（TP + TN + FP + FN）

当然，按照定义，Jaccard忽略了TN。对于非常大的数据集，TN的数量可能非常大，我的论文就是这种情况。因此，该术语推动了所有分析。当我从兰特指数转向Jaccard指数时，我忽略了TN的贡献，并且能够更好地理解事物。

版本较长 -

兰德和Jaccard指数更常用于比较通常的反应特征统计数据（如感觉/特异性等）来比较分区/聚类。但在某种意义上，它们可以扩展到真正的正面或真正的负面观念。让我们更详细地讨论一下 -

对于一组元素S = {a1，a2 .... an}，我们可以定义两个不同的聚类算法X和Y，它们将它们分成r个簇 - X1，X2 ...... Xr簇和Y1， Y2 .... Yr集群。组合所有X群集或所有Y群集，您将再次获得完整的S集。

现在，我们定义： - A = S中与X中相同集合和Y中相同集合中的元素对数 B = S中的元素对的数量，它们在X中的不同集合中以及在Y中的不同集合中 C = S中元素对的数量，它们在X中的相同集合中以及在Y中的不同集合中 D = S中元素的对数，它们在X中的不同集合中以及在Y

中的相同集合中

兰德指数定义为 - R =（A + B）/（A + B + C + D）现在以这种方式看待事物 - 让X成为诊断测试的结果，而Y是数据点上的实际标签。因此，A，B，C，D然后减少到TP，TN，FP，FN（按此顺序）。基本上，R减少到我上面给出的定义。

现在，Jaccard Index -

对于两组M，N Jaccard索引忽略聚类算法X和Y的不同组中的元素，即它忽略B，这是真阴性。

J =（A）/（A + C + D），减少到J =（TP）/（TP + FP + FN）。

这就是两个统计数据根本不同的方式。如果你想了解更多关于这些的信息，这里有一篇非常好的论文，以及一个可能对你有用的网站 -

希望这有帮助！