machine-learning - 学习结果空间给出嘈杂动作和非单调强化

我正在寻找构建或改编优选基于RL理论的模型，该模型可以解决以下问题。非常感谢任何指导或指示。

我有一个连续的动作空间，可以从10-100（含）的范围内选择动作。根据值函数，每个动作与某个强化值相关联，范围从0到1（也包括）。到现在为止还挺好。这是我开始介入的地方：

并发症1：

值函数 V 根据给定操作 x 与目标操作 A 之间的距离将操作映射到强化。两者之间的距离越小，强化越大（即，强化与abs成反比（ A - x ）。但是，值函数仅为非零值接近 A 的行动（绝对（ A - x ）小于，比如说epsilon），其他地方为零。所以：

**V**与1 / abs(**A** - **x**)的{{1}}成正比，

abs(**A** - **x**) < epsilon **V** = 0。

并发症2：

我不确切地知道每一步采取了什么行动。我大致知道它们是什么，因此我知道它们属于 x +/- sigma范围，但不能将单个动作值与我收到的强化完全关联。

我想解决的确切问题如下：我有一系列嘈杂的动作估计值和精确的强化值（例如在试验1中我可能 x ~15-30并且加固0;在试验2中，我可能有 x ~25-40并且强化为0;在试验3中， x 为~80-95，强化为0.6。）我想构建一个模型来表示每个步骤后目标动作 A 的最可能位置的估计，可能根据一些学习速率参数对新信息进行加权（因为确定性会随着样本的增加而增加）。

学习结果空间给出嘈杂动作和非单调强化

1 个答案: