学习结果空间给出嘈杂动作和非单调强化

时间:2013-05-16 06:47:14

标签: machine-learning artificial-intelligence reinforcement-learning

我正在寻找构建或改编优选基于RL理论的模型,该模型可以解决以下问题。非常感谢任何指导或指示。

我有一个连续的动作空间,可以从10-100(含)的范围内选择动作。根据值函数,每个动作与某个强化值相关联,范围从0到1(也包括)。到现在为止还挺好。这是我开始介入的地方:

并发症1:

值函数 V 根据给定操作 x 与目标操作 A 之间的距离将操作映射到强化。两者之间的距离越小,强化越大(即,强化与abs成反比( A - x )。但是,值函数仅为非零值接近 A 的行动(绝对( A - x )小于,比如说epsilon),其他地方为零。所以:

**V**1 / abs(**A** - **x**)的{​​{1}}成正比,

abs(**A** - **x**) < epsilon **V** = 0

并发症2:

我不确切地知道每一步采取了什么行动。我大致知道它们是什么,因此我知道它们属于 x +/- sigma范围,但不能将单个动作值与我收到的强化完全关联。

我想解决的确切问题如下:我有一系列嘈杂的动作估计值和精确的强化值(例如在试验1中我可能 x ~15-30并且加固0;在试验2中,我可能有 x ~25-40并且强化为0;在试验3中, x 为~80-95,强化为0.6。)我想构建一个模型来表示每个步骤后目标动作 A 的最可能位置的估计,可能根据一些学习速率参数对新信息进行加权(因为确定性会随着样本的增加而增加)。

1 个答案:

答案 0 :(得分:0)

这篇期刊文章可能是相关的:它解决了延迟奖励在存在噪音和不一致的奖励时的强大学习

"Rare neural correlations implement robot conditioning with delayed rewards and disturbances"

具体来说,他们追踪(记住)哪些突触(或行动)在奖励事件之前已经开始并强化所有这些突触,其中强化的数量随着时间在行动和奖励之间衰减。

个人奖励事件将奖励在奖励(或所执行的动作)之前碰巧发生的任何突触,包括与奖励无关的突触。然而,在适当的学习率下,这应该稳定在少数几次迭代中,只有期望的行动得到持续的奖励和加强。