混合(二元和数字)向量的相似性得分

时间:2012-11-09 13:27:33

标签: statistics machine-learning data-mining

我有一个数据集,实例大约有200个特征,其中大约11个是数字(整数),其余的是二进制(1/0),这些特征可能是相关的,它们具有不同的概率分布,

有一段时间我一直在寻找一个很好的相似度得分,它适用于混合向量并考虑到特征之间的相关性,

你知道这样的相似度得分吗?

谢谢, 阿里安

2 个答案:

答案 0 :(得分:3)

在您的情况下,相似性函数在很大程度上依赖于输入数据模式。您可以从学习给定集合的数据输入空间的距离度量中受益 保持距离关系的一对相似/不相似点 培训数据。

Here是一份很好的调查报告。

答案 1 :(得分:2)

根据数据集,众多类型的距离测量EuclideanManhattan等将提供不同的准确度。最好阅读涵盖您的数据拟合方法的论文,并了解他们使用的启发式方法。更不用说某些方法只需要相应缩放的同类数据。 Here是一篇论文,讨论了一系列你可能会觉得有吸引力的措施。

与往常一样,测试并交叉验证,看看是否确实存在混合功能类型的影响。