machine-learning - 为什么我的神经网络Q-learner没有学习tic-tac-toe

为什么我的神经网络Q-learner没有学习tic-tac-toe

时间：2016-11-30 19:50:31

标签： machine-learning neural-network deep-learning reinforcement-learning q-learning

好的，所以我创建了一个神经网络Q学习器，使用与DeepMind的Atari算法相同的想法（除了我给原始数据而不是图片（还））。

神经网络构建：

9个输入（0表示空白点，1表示“X”，-1表示“O”）
1个隐藏层，有9-50个神经元（尝试不同大小，激活函数sigmoid）
9个输出（每个动作1个，输出Q值，激活函数sigmoid）
MSE损失功能
Adam backprop

由于渐变检查和大量测试，我100％确信网络是正确构建的。

问参数：

-1丢失游戏的奖励
-1奖励，如果试图移动已占用点（例如X已经在玩家O试图放置他的“O”的地方）
0抽奖奖励
0奖励移动，不会导致终端状态
赢得比赛的+1奖励
下一个状态（s，a，r，s'）是你自己和对手移动后的状态。例如。空板和玩家X首先转弯并在左上角放置“X”。然后玩家O在右上角放置“O”。那么s，a，r，s'将是s = [0,0,0,0,0,0,0,0,0]，a = 0，r = 0，s'= [1,0， - 1,0,0,0,0,0,0]

问题

如果我在已经占据的位置移动时给予-1奖励，我的所有Q值都会变为零。如果我不这样做，网络不知道它不应该移动到已经占用的地方，并且似乎学习任意的Q值。我的错误似乎也没有缩小。

无效的解决方案

我试图将奖励改为（0,0.5,1）和（0,1），但仍然没有学习。
我试图将状态显示为0表示空，0表示O，1表示X，但不起作用。
我试图在移动之后立即给出下一个状态，但它没有帮助。
我尝试过Adam和vanilla，但结果仍然相同。
我尝试过重放记忆和随机梯度下降的批次，但仍然是相同的
将sigmoid改为ReLU但没有帮助。
我现在不记得的各种事情

GitHub项目：https://github.com/Dopet/tic-tac-toe（对不起丑陋的代码主要是由于所有这些重构的代码，这应该是很容易测试，看看算法是否有效）

要点：

TicTac类具有游戏本身（使用抽象Game类中的模板方法模式制作）
NeuralNetwork类将一些数据记录到当前目录中名为MyLogFile.log的文件
Block和Combo类仅用于创建获胜情境
jblas-1.2.4.jar包含DoubleMatrix库

2 个答案:

答案 0 :(得分：1)

这是从输出层奖励/删除激活功能的问题。大多数时候我得到[-1,1]的奖励，我的输出层激活函数是sigmoid，它来自[0,1]。这导致网络在使用-1奖励它时总是会出错，因为输出永远不会小于零。这导致值变为零，因为它试图修复错误，但它不能

答案 1 :(得分：0)

我认为你的提法是错误的。您正在使用NN为下一个状态提供的最大值来更新状态值。

expectedValue[i] = replay.getReward() + gamma *targetNetwork.forwardPropagate(replay.getNextState()).max();

这适用于单人游戏设置。但是由于tic tac toe是2人游戏，“下一个状态”（对手）的更高价值对当前状态的价值不利。

您可以将最大值2状态向前移动（使用NN预测2个状态向前），但是这也不能很好地执行，因为您假设您所做的第二步是最佳的并且会导致大量错误更新。

我建议您使用policy gradients进行传播值不太清楚的设置。在这种方法中你玩随机游戏（两个玩家进行随机移动），并说如果玩家'O'赢了你积极奖励所有'O'移动（减少折扣因素，即最后一步获得更多奖励然后奖励减少一个因素）和奖励'X'以同样的方式消极地移动。如果比赛结果平局，你可以奖励两名球员获得较少的积极奖励。

你最终可能会积极奖励次优最佳动作，反之亦然，但在大量游戏中，事情对你有利。