我正在阅读这篇论文Anxiety, Avoidance and Sequential Evaluation并且对特定实验室研究的实施感到困惑。即,作者使用简单的 MDP 对所谓的 Balloon 任务进行建模,其描述如下:
我的困惑是以下句子:
...这种不良转变的概率是使用正态密度函数建模的,带有参数
但事实上这是一个连续的正态分布,这让我很难过。在 MDP 中,通常有一个很好的离散转换矩阵,因此对于如何实现它没有歧义。例如,如果他们说向坏状态的转换是由带有参数的伯努利随机变量建模的那么如何实现它就很清楚了。我会做类似的事情:
def step(curr_state, curr_action):
if uniform random variable(0,1) < p:
next_state = bad state
但是他们为这个“坏”的过渡使用了一个正常的随机变量,那么我该如何实现呢?