参数是什么是的y代表功能G(是, μ , σ)g(y,μ,σ)与强化算法有关?

人工智能 强化学习 文件 加强 符号
2021-10-28 19:06:35

我想知道参数是什么y在函数中g(y,μ,σ)=1(2π)1/2σe(yμ)2/2σ2代表在介绍 REINFORCE 系列算法的论文的第 6 节(第 14 页)中。

与同一篇论文的公式 4 进行类比,我猜它指的是从由参数参数化的概率分布中采样的结果(即sample )μσ. 但是,我不确定这是否正确。

2个回答

如果您查看与正态分布相关的维基百科页面,您将看到高斯密度的定义

(1)f(x)=1σ2πe12(xμσ)2

你会看到y在您的公式中对应于x在等式中1.

我在计算机视觉和图像处理的上下文中看到了这种表示法,其中高斯内核用于模糊图像。

因此,正如某人在评论中指出的那样,y确实应该是您评估密度的点。

也许令人困惑的部分是所有参数在其目的方面都被平等对待,而μσ显然是定义特定密度的参数,因此它们不是特定密度的输入。

在阅读了论文的相关部分后,我现在明白你为什么感到困惑了。作者指的是y作为输出(还不知道为什么:也许是另一个单元的输出为这个高斯单元提供了食物?),但我认为这个解释仍然适用。高斯密度的输出g不是y,但对应的密度y. 事实上,在附录中B在这篇论文中,作者说Y支持_gy是一个元素Y.

它指出“为了简化符号,我们专注于一个单一的单位,并在整个过程中省略了通常的单位索引下标”

因此,为了简单起见,他们只是从等式中删除了第 i 个索引。所以 g 是给定实例“y”和参数 μ 和 σ 的函数。