当它是高斯分布时,我应该如何实现状态转换?

人工智能 强化学习 马尔可夫决策过程 执行 时差法 过渡模型
2021-10-19 14:22:05

我正在阅读这篇论文Anxiety, Avoidance and Sequential Evaluation并且对特定实验室研究的实施感到困惑。即,作者使用简单的 MDP 对所谓的 Balloon 任务进行建模,其描述如下:

在此处输入图像描述

我的困惑是以下句子:

...这种不良转变的概率是使用正态密度函数建模的,带有参数N(16,0.5)

但事实上这是一个连续的正态分布,这让我很难过。在 MDP 中,通常有一个很好的离散转换矩阵,因此对于如何实现它没有歧义。例如,如果他们说向坏状态的转换是由带有参数的伯努利随机变量建模的p,那么如何实现它就很清楚了。我会做类似的事情:

def step(curr_state, curr_action):
   if uniform random variable(0,1) < p:
      next_state = bad state

但是他们为这个“坏”的过渡使用了一个正常的随机变量,那么我该如何实现呢?

1个回答

我通过访问作者公开的 github 代码发现了这一点。原来作者只是在生成转移概率pN(μ,σ2)出于某种原因,在每一集的开头。为了不让这个问题无人回答,我自己回答。