machine-learning - 这个任务的机器学习算法？

这个任务的机器学习算法？

时间：2012-01-07 16:45:45

标签： machine-learning

尝试编写一些处理此任务的代码：

作为一个起点，我有大约20个“轮廓”（想象一个风景轮廓），即大约1000个实际值的一维数组。
每个配置文件都有一个实际值的期望结果，即“有效高度”。
有效高度是某种平均值，但峰的高度，宽度和位置起着特殊的作用。
我的目标是从输入数据中推广出来，以便计算进一步剖面的有效高度。

是否有机器学习算法或原理可以提供帮助？

3 个答案:

答案 0 :(得分：2)

原则1：提取最多的导入功能，而不是提供所有功能

如你所说，“有效高度是某种平均值，但峰值的高度，宽度和位置起着特殊的作用。”这样你就有了一个强大的先验假设强烈>这些措施对学习最重要。如果我是你，我会首先计算这些测量值，并将它们用作学习的输入，而不是原始数据。

原则2：在选择学习算法时，首先要关注的是线性可分性

假设高度是这些度量的函数，那么你必须考虑到函数线性的程度。例如，如果函数几乎是线性的，那么一个非常简单的Perceptron就是完美的。否则，如果它远非线性，您可能想要选择一个多层神经网络。如果它远离线性....请转到原则1，并检查您是否正在提取正确的功能。

原则3：更多数据帮助

如你所说，你有大约20个“个人资料”进行培训。总的来说，这还不够。几乎所有的机器学习算法都是针对某种大数据而设计的。甚至他们声称他们的算法擅长学习小样本，但通常不会小到20岁。获取更多数据！

答案 1 :(得分：0)

也许多元线性回归就足够了？

答案 2 :(得分：0)

我可能会结合你所说的哪些功能扮演最重要的角色，然后对此进行回归。基本上，您需要至少一个与每个要素对应的系数，并且您需要比系数多得多的数据点。所以，我会选择两个最大峰的高度和宽度。您现在已将每个配置文件缩小为仅4个数字。现在做这个技巧：将数据分成5组4.选择前4组。将所有这些配置文件减少为4个数字，然后使用所需的结果进行回归。一旦你训练了回归，在最后4点尝试你的技术，看看它的工作情况。重复此过程5次，每次都省略一组不同的数据。这称为交叉验证，非常方便。

显然，获得更多数据会有所帮助。