混合变量(分类和数字)距离函数

时间:2011-08-07 14:27:04

标签: cluster-analysis distance data-mining

我想模糊群集一组作业职位属性是:

  1. 分类:职位,文凭,技能
  2. 数字:薪水,多年经验
  3. 我的问题是:如何计算不同工作之间的距离?                   例如 job1 (程序员,计算机科学,(java,.net,责任),1500,3)
    job2 (测试员,计算机科学,(黑白盒测试),1200,1)

    PS:我是数据挖掘集群的初学者,非常感谢您的帮助。

2 个答案:

答案 0 :(得分:3)

您可以将此作为起点: http://www.econ.upf.edu/~michael/stanford/maeb4.pdf。最后,很清楚地解释了分类数据之间的距离。

答案 1 :(得分:2)

以下是几种不同聚类方法的详细介绍以及如何在R中使用它们:http://biocluster.ucr.edu/~tgirke/HTML_Presentations/Manuals/Clustering/clustering.pdf

通常,离散数据的聚类与计数的使用(例如向量中的重叠)或与从计数得出的某些统计有关。尽管我想解决统计方面的问题,但我想你对这个算法很感兴趣,所以我会把它留在那里。