针对NN和其他机器学习算法规范化数据(不确定这是否是正确的术语)的最佳做法是什么?我的意思是你如何向NN /算法表示数据。
例如,您如何表示商店代码?商店555不大于或小于554,它只是一个分类。 NNs / algo模型是否只是自己过滤掉,或者你是否需要将它们变成分类而非数学上的区别?
感谢您在指导我获取适当信息方面的任何帮助。我显然是新手。
编辑:感谢大家的回答。我一直在挖掘相当多的数据挖掘书籍,虽然我发现有一些关于数据预处理的话题花了一两章,但我对它如何最完全地掩盖它有点惊讶。再次感谢。
答案 0 :(得分:12)
答案 1 :(得分:1)
通常,您需要指定测量级别,以及变量的作用(独立,依赖,输入,输出等)。有时包会做出“猜测”,您可以选择更改它。在您的示例中,Store是一个分类变量。即使是数字,也不能对其进行算术运算。
答案 2 :(得分:0)
最近发现一篇很好的论文讨论了混合特征向量的归一化,你可能会发现它很有趣。我很奇怪事先就这个话题做了很少的工作。
http://rspa.royalsocietypublishing.org/content/early/2012/04/17/rspa.2011.0704.full.pdf