指示符分析的模式序列识别

时间:2019-03-31 16:18:48

标签: pandas jupyter-notebook

我必须开发一个系统来为已建立或未建立的序列创建指标。

我的问题是我有一系列区域,这些区域可以按免费分类,而不是像下面这样的免费分类:

Id:   Sequence_area Status
1           100       free
2           400       free
3           515     Not free
4           624       free
5           900     Not free
6           1551      free
7           1900    Not free
1           2000      free
2           2800      free
1           3000    Not free
2           4000    Not free

Sequence_area表示从0到100属于ID 1,然后从100到400属于Id 2,并且按此顺序。

如果我进行了百分比分析,我可以看到50%是免费的,而50%不是免费的,但是如果我对此进行查看,我会看到两个对我有益的歌,例如两个大的序列区域是空闲的(从0到515,以及从2000到3000),这可以给我一个指标,说明我有多少线性序列可用。 (12.8%的开始顺序是自由的,中间的25%是自由顺序的37.8%) 并且还有其他可以作为一个很好指标的东西。 Id 3中的非空闲量非常小(小于自由后部/前部区域的10%),这可以指示我具有从零到900的序列自由,且其Not Free区域的百分比小于5%。 / p>

首先,我尝试使用k-means聚类方法解决此问题,但仅使用2个数据(顺序和自由/不自由)并没有真正的意义。

有人可以通过解释解决该问题的好方法来帮助我吗?

0 个答案:

没有答案