machine-learning - 监督学习，（ii）无监督学习，（iii）强化学习

监督学习，（ii）无监督学习，（iii）强化学习

时间：2013-04-03 09:00:49

标签： machine-learning artificial-intelligence

我是机器学习的新手。在阅读有关监督学习，无监督学习，强化学习的同时，我遇到了一个如下问题而感到困惑。请帮助我在下面三个中识别哪个是监督学习，无监督学习，强化学习。

哪种类型的学习（如果有的话）最能描述以下三种情景：

（i）为自动售货机创建硬币分类系统。为此，开发商从美国造币厂获得确切的硬币规格并得出自动售货机的大小，重量和面额的统计模型然后机器用它来分类硬币。

（ii）算法不是要求美国造币厂获得硬币信息赠送一大堆带标签的硬币。该算法使用此数据推断自动售货机然后用来对其进行分类的决策边界硬币。

（iii）计算机通过反复播放来制定玩Tic-Tac-Toe的策略并通过惩罚最终导致失败的行动来调整其策略。

4 个答案:

答案 0 :(得分：3)

（i）无监督学习 - 因为没有标记数据可用

（ii）监督学习 - 因为您已经标记了数据

（iii）强化学习 - 根据行动以及行动的效果/奖励学习和重新学习。

答案 1 :(得分：2)

假设您有数据集表示为矩阵X。 X中的每一行都是观察（实例），每列代表特定的变量（特征）。

如果您还拥有（并使用）与观察相对应的标签的矢量y，那么这是监督学习的任务。涉及“主管”，说明哪些观察属于＃1类，哪些属于＃2类等。

如果您没有观察标签，则必须根据X数据集本身做出决策。例如，在具有硬币的示例中，您可能想要为硬币参数建立正态分布模型，并创建在硬币具有异常参数时发出信号的系统（因此可能是欺诈尝试）。在这种情况下，您没有任何类型的主管可以说出哪些硬币可以使用，哪些代表欺诈尝试。因此，它是无监督学习任务。

在之前的2个示例中，您首先训练模型然后使用它，而不对模型进行任何进一步更改。在强化学习模型中，基于处理后的数据和结果不断改进。例如，寻求从A点到B点寻找路径的机器人可首先计算移动的参数，然后根据这些参数进行移位，然后分析新位置并更新移动参数，以便下一步移动更准确（重复）直到到达B）点。

基于此，我很确定你能找到这3种学习和你的物品之间的对应关系。

答案 2 :(得分：0)

在监督算法中，这些类是预先确定的。这些类可以被设想为先前由人类得到的有限集。在实践中，某些数据段将使用这些分类进行标记。机器学习者的任务是搜索模式并构建数学模型。然后根据它们与数据本身的方差测量相关的预测能力来评估这些模型。文档中引用的许多方法（决策树归纳，朴素贝叶斯等）都是监督学习技术的例子。

无监督学习者未提供分类。事实上，无监督学习的基本任务是自动开发分类标签。无监督算法寻找数据片段之间的相似性，以确定它们是否可被表征为形成组。这些组被称为集群，并且有一整套集群机器学习技术。

答案 3 :(得分：0)

我写了一篇关于新手Perceptron的文章。我已经用Delta Rule详细解释了监督学习。还描述了无监督学习和强化学习（简要说明）。你可以检查一下你是否感兴趣。

＆＃34;人工神经网络（感知器）从自动驾驶汽车中检测汽车/行人的直观示例＆＃34;

https://www.spicelogic.com/Blog/Perceptron-Artificial-Neural-Networks-10