machine-learning - 强化学习是否适合预测骰子的偏向？

我想分析一个类似以下的问题。

问题：
您将获得N个骰子。
您将获得有关每个骰子的大量数据（例如表面信息，材料信息，重心位置等）。
骰子的功能会在每个游戏中随机生成，并以相同的速度，角度和初始位置发射。
掷骰子的结果是，如果得到6点，则得到1分，否则得到0点。
有10万场比赛的训练数据。（骰子数据和比赛结果）
我想学习只选择获得6的概率大于1/6的骰子的规则。

对于含糊的问题陈述，我表示歉意。
首先，假设“ N个骰子”是我的错误。
骰子可以一一对应。

分布了一个具有随机特征的骰子
滚动时会记录是否有6个出来。

如果将“ [特征，结果]数据设为100,000”这一问题，就容易理解。

如果您得到的不是6，则将获得-1分。如果您获得6分，您将获得+5分。

示例：
X：骰子数据的向量
f：我想知道的功能
f：X-> [0，1]
（如果结果> 0.5，我选择这个骰子。）

例如，一个骰子有1/5几率获得6的骰子，其非6分中有5分获得4分，所以我想知道立即给出奖励是否更好。以100000场比赛后的积分数来确定奖励是很好吗？

我已经阅读了一些通用的强化学习方法，但是有一个状态转换的概念。但是，此游戏中没有状态转换。（每个游戏都以1步结束，并且每个游戏都是独立的。）

我是一名学生，只是从头开始学习神经网络。如果您给我提示，它会有所帮助。谢谢。

顺便说一句，
我认为可以得出这样的结论：“最好选择距离重心最远的点为6的骰子。”

让我们首先谈谈强化学习。

问题设置，以提高普遍性的顺序：

多用途武装强盗-无状态，只是奖励未知的行动
上下文强盗-奖励还取决于某些上下文（状态）
强化学习（MDP）-动作也会影响下一个状态

所有这三个方面的共同点是，您希望随着时间的流逝而获得最大的回报，并且要在探索与开发之间进行权衡。您不仅获得了一个大型数据集。如果您想知道最佳动作是什么，则必须尝试几次并观察奖励。这可能会花费您一些本可以获得的奖励。

在这三个选项中，上下文强盗是与您的设置最接近的匹配项，尽管它与您的目标并不完全匹配。就像这样：给定骰子的某些属性（上下文），从一组可能的选择（动作，例如网络输出）中选择最好的骰子，以便获得最高的预期奖励。同时，您还在训练网络，因此有时必须选择不良或未知的属性来进行探索。

但是，不匹配有两个原因：

您已经拥有来自数以十万计的游戏的数据，并且似乎不希望将尝试和出错的费用降到最低以获取更多数据。您假设此数据具有代表性，因此无需勘探。
您仅对预测感兴趣。您想将骰子分为“好掷6”和“坏”。如果您知道做出错误决定的成本，那么这些信息可以稍后用于在不同选择之间做出决定。如果您只是因为对骰子的特性感到好奇而只是学习 f（），那将是一个纯粹的统计预测问题。您不必担心短期或长期的回报。您不必担心任何操作的选择或后果。

因此，您实际上只有一个监督学习问题。您仍然可以通过强化学习来解决它，因为RL更通用。但是您的RL算法会浪费很多时间，以为它真的不能影响下一个状态。

监督学习

您的骰子实际上表现得像有偏见的硬币，这是伯努利审判，成功概率约为1/6。现在这是一个标准的分类问题：根据您的特征，预测骰子会带来良好匹配结果的可能性。

似乎您的“比赛结果”可以很容易地转换成相同骰子的掷骰次数和阳性结果（掷骰6）。如果每个骰子都有大量掷骰，则可以简单地对该骰子进行分类，并使用此类（连同物理属性）作为一个数据点来训练您的网络。

如果卷数较少，您可以做更多花哨的事情，但我不会介绍。（如果您有兴趣，请查看beta分布以及交叉熵损失如何与神经网络一起工作。）

强化学习是否适合预测骰子的偏向？

1 个答案:

监督学习