matlab集群工具箱应该使用什么样的数据/格式

时间:2011-10-11 00:11:32

标签: cluster-analysis data-mining matlab

  

可能重复:
  clustering and matlab

Matlabs群集工具箱应使用哪种数据/格式?我下载了kdd 1999数据集它作为一个data.protected文件打开文件与ms文本编辑器我能够看到这样的数据:

0,tcp,http,SF,239,486,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,8,8,0.00,0.00,0.00,0.00,1.00,0.00,0.00,19,19,1.00,0.00,0.05,0.00,0.00,0.00,0.00,0.00,normal.

我做了什么然后打开excel拖动并将文本文件放入excel,然后开始填充excel罚款但它全部包含在一个单元格中(上面的格式)所以我去了数据 - 文本到列并使用逗号分隔,然后从kdd集合中给我38列,然后用文本数据(tcp,http,sf,normal等)删除列,只留下数字数据。

然后我在matlab中使用这个方法将kdd.csv文件转换为matlab.dat文件:

a = csvread('kdd.csv');
save 'kdd.dat' a -ASCII

这允许我在matlab的聚类工具中使用kdd数据,但输出不是预期的吗?

这就是它给我的东西:

enter image description here

我看到很多人都在谈论将其更改为数值(包含的值是数字,但也许不是我的想法)我也看到很多关于浮点等的谈话但我完全坚持如何前进如何使用matlabs群集工具箱http://www.mathworks.co.uk/help/techdoc/ref/textscan.html

,您是否对数据有任何可理解的意义?

0 个答案:

没有答案