这个任务的机器学习算法?

时间:2012-01-07 16:45:45

标签: machine-learning

尝试编写一些处理此任务的代码:

  • 作为一个起点,我有大约20个“轮廓”(想象一个风景轮廓),即大约1000个实际值的一维数组。
  • 每个配置文件都有一个实际值的期望结果,即“有效高度”。
  • 有效高度是某种平均值,但峰的高度,宽度和位置起着特殊的作用。
  • 我的目标是从输入数据中推广出来,以便计算进一步剖面的有效高度。

是否有机器学习算法或原理可以提供帮助?

3 个答案:

答案 0 :(得分:2)

原则1:提取最多的导入功能,而不是提供所有功能

如你所说,“有效高度是某种平均值,但峰值的高度,宽度和位置起着特殊的作用。”这样你就有了一个强大的先验假设强烈>这些措施对学习最重要。如果我是你,我会首先计算这些测量值,并将它们用作学习的输入,而不是原始数据。

原则2:在选择学习算法时,首先要关注的是线性可分性

假设高度是这些度量的函数,那么你必须考虑到函数线性的程度。例如,如果函数几乎是线性的,那么一个非常简单的Perceptron就是完美的。否则,如果它远非线性,您可能想要选择一个多层神经网络。如果它远离线性....请转到原则1,并检查您是否正在提取正确的功能。

原则3:更多数据帮助

如你所说,你有大约20个“个人资料”进行培训。总的来说,这还不够。几乎所有的机器学习算法都是针对某种大数据而设计的。甚至他们声称他们的算法擅长学习小样本,但通常不会小到20岁。获取更多数据!

答案 1 :(得分:0)

也许多元线性回归就足够了?

答案 2 :(得分:0)

我可能会结合你所说的哪些功能扮演最重要的角色,然后对此进行回归。基本上,您需要至少一个与每个要素对应的系数,并且您需要比系数多得多的数据点。所以,我会选择两个最大峰的高度和宽度。您现在已将每个配置文件缩小为仅4个数字。现在做这个技巧:将数据分成5组4.选择前4组。将所有这些配置文件减少为4个数字,然后使用所需的结果进行回归。一旦你训练了回归,在最后4点尝试你的技术,看看它的工作情况。重复此过程5次,每次都省略一组不同的数据。这称为交叉验证,非常方便。

显然,获得更多数据会有所帮助。