我必须开发一个系统来为已建立或未建立的序列创建指标。
我的问题是我有一系列区域,这些区域可以按免费分类,而不是像下面这样的免费分类:
Id: Sequence_area Status
1 100 free
2 400 free
3 515 Not free
4 624 free
5 900 Not free
6 1551 free
7 1900 Not free
1 2000 free
2 2800 free
1 3000 Not free
2 4000 Not free
Sequence_area表示从0到100属于ID 1,然后从100到400属于Id 2,并且按此顺序。
如果我进行了百分比分析,我可以看到50%是免费的,而50%不是免费的,但是如果我对此进行查看,我会看到两个对我有益的歌,例如两个大的序列区域是空闲的(从0到515,以及从2000到3000),这可以给我一个指标,说明我有多少线性序列可用。 (12.8%的开始顺序是自由的,中间的25%是自由顺序的37.8%) 并且还有其他可以作为一个很好指标的东西。 Id 3中的非空闲量非常小(小于自由后部/前部区域的10%),这可以指示我具有从零到900的序列自由,且其Not Free区域的百分比小于5%。 / p>
首先,我尝试使用k-means聚类方法解决此问题,但仅使用2个数据(顺序和自由/不自由)并没有真正的意义。
有人可以通过解释解决该问题的好方法来帮助我吗?