Question

我想对一些多维数据进行分类：

输入数据如下：

Data1: [[a1,b1,f1], [a2,b2,f2], ... [an,bn,fn]] where: fn = F(an,bn) --> ClassA
Data2: [[c1,d1,g1], [c2,d2,g2], ... [cn,dn,gn]] where: gn = G(cn,dn) --> ClassB
...

因此，给定Datax，如下所示，我们希望将其归类为我们拥有的有限类之一：

Datax: [[x1,y1,z1], [x2,y2,z2], ... [xn,yn,zn]] where: zn = Z(xn,yn) --> which class?

我可能会为每条记录压平数组并训练我的分类器：

Data1: [a1,b1,f1,a2,b2,f2,...,an,bn,fn]

但我认为因为第三个值本身是前两个值的函数（例如fn = F(an,bn)），我应该在训练中考虑这种关系，而不是用于平面数组。

它有什么不同吗？或者解决这个问题的最佳方法是什么？

Answer 1

如果每个元组的第3个数据是相同确定性函数的乘积（每行可以不同但行的每个三元组必须相同）然后你可以简单地剪切zn因为它没有带来任何新的信息。

例如：z1 = 3x1 + 2y1; z2 = 3x1 + 2y1; [...]; zn = 3xn + 2yn

如果不是这样，那么你应该离开z1。

说这个，我认为你可以压扁数组，因为大多数模型会自动理解这些依赖。

多维数据的分类

1 个答案: