数据规范化的参考

时间:2011-04-13 16:17:41

标签: machine-learning neural-network

针对NN和其他机器学习算法规范化数据(不确定这是否是正确的术语)的最佳做法是什么?我的意思是你如何向NN /算法表示数据。

例如,您如何表示商店代码?商店555不大于或小于554,它只是一个分类。 NNs / algo模型是否只是自己过滤掉,或者你是否需要将它们变成分类而非数学上的区别?

感谢您在指导我获取适当​​信息方面的任何帮助。我显然是新手。

编辑:感谢大家的回答。我一直在挖掘相当多的数据挖掘书籍,虽然我发现有一些关于数据预处理的话题花了一两章,但我对它如何最完全地掩盖它有点惊讶。再次感谢。

3 个答案:

答案 0 :(得分:12)

答案 1 :(得分:1)

通常,您需要指定测量级别,以及变量的作用(独立,依赖,输入,输出等)。有时包会做出“猜测”,您可以选择更改它。在您的示例中,Store是一个分类变量。即使是数字,也不能对其进行算术运算。

http://en.wikipedia.org/wiki/Level_of_measurement

答案 2 :(得分:0)

最近发现一篇很好的论文讨论了混合特征向量的归一化,你可能会发现它很有趣。我很奇怪事先就这个话题做了很少的工作。

http://rspa.royalsocietypublishing.org/content/early/2012/04/17/rspa.2011.0704.full.pdf