感知器训练规则,为什么乘以x

时间:2018-05-20 14:25:33

标签: machine-learning neural-network perceptron

我正在阅读Tom Mitchell的机器学习书,他提到了感知器训练规则的公式

enter image description here

,其中

enter image description here

  • enter image description here:培训率
  • enter image description here:预期输出
  • enter image description here:实际输出
  • enter image description here:输入

这意味着如果enter image description here非常大,那么enter image description here也是如此,但是当enter image description here很大时,我不明白大型更新的目的

相反,我觉得如果有一个很大的enter image description here那么更新应该很小,因为enter image description here的小波动会导致最终输出发生很大的变化(由于{ {3}})

1 个答案:

答案 0 :(得分:2)

调整是向量加法和减法,可以认为是旋转超平面,使得0类属于一个部分而类1属于另一部分。

考虑1xd权重向量enter image description here,指示感知器模型的权重。另外,请考虑1xd数据点enter image description here。然后,在不失一般性的情况下考虑线性阈值的感知器模型的预测值将是

enter image description here - Eq。 1

这里'。'是点积,或

enter image description here

上面的超平面是

enter image description here

(为简单起见,忽略权重更新的迭代索引)

让我们考虑一下我们有两个类01,同样不失一般性,标有0的数据点落在一边,其中Eq.1< = 0超平面,标记为1的数据点落在Eq.1>的另一侧。 0

此超平面 normal 的向量是enter image description here。带有标签0的数据点之间的角度应该大于90度,带有标签1的数据点之间的数据点应该小于90度。

enter image description here有三种可能性(忽略训练率)

  • enter image description here:暗示此示例按当前权重集正确分类。因此,我们不需要对特定数据点进行任何更改。
  • enter image description here暗示目标是1,但目前的权重集将其归类为0。 Eq1。 enter image description here应该是enter image description here。 EQ1。在这种情况下,enter image description here表示enter image description hereenter image description here之间的角度大于 90度,这应该更小。更新规则为enter image description here。如果您想象在2d中添加矢量,则会旋转超平面,使enter image description hereenter image description here之间的角度比以前更接近并且小于90度。
  • enter image description here暗示目标是0,但目前的权重集将其归类为1。 eq1。 enter image description here应该是enter image description here。 EQ1。在这种情况下,enter image description here表示enter image description hereenter image description here之间的角度小于 90度,这应该更大。更新规则为enter image description here。同样,这将旋转超平面,使enter image description hereenter image description here之间的角度大于90度。

迭代过度并且过度旋转并调整超平面,使超平面法线的角度小于90度,其数据点标记为1,大于{{1具有标记为90的类的数据点的度数。

如果enter image description here的幅度很大,则会发生很大的变化,因此它会在过程中引起问题,并且可能需要更多的迭代才能收敛,这取决于初始权重的大小。因此,对数据点进行标准化或标准化是个好主意。从这个角度来看,很容易直观地看到更新规则究竟在做什么(将偏差视为超平面Eq.1的一部分)。现在将其扩展到更复杂的网络和/或阈值。

推荐阅读和参考:Neural Network, A Systematic Introduction by Raul Rojas:第4章