cluster-analysis - 混合变量（分类和数字）距离函数

时间：2011-08-07 14:27:04

标签： cluster-analysis distance data-mining

我想模糊群集一组作业。 职位属性是：

我的问题是：如何计算不同工作之间的距离？例如 job1 （程序员，计算机科学，（java，.net，责任），1500,3）
和 job2 （测试员，计算机科学，（黑白盒测试），1200,1）

PS：我是数据挖掘集群的初学者，非常感谢您的帮助。

答案 0 :(得分：3)

您可以将此作为起点： http://www.econ.upf.edu/~michael/stanford/maeb4.pdf。最后，很清楚地解释了分类数据之间的距离。

答案 1 :(得分：2)

通常，离散数据的聚类与计数的使用（例如向量中的重叠）或与从计数得出的某些统计有关。尽管我想解决统计方面的问题，但我想你对这个算法很感兴趣，所以我会把它留在那里。