在David Silver 的第 8 讲中,他谈到了模型学习,并说学习从是一个回归问题,而学习从是核密度估计。他对差异的解释是,如果我们处于随机环境中并且我们在元组中那么可能有 30% 的机会风将我吹向左, 70% 的机会风将我吹向右,所以我们要估计这些概率。
是这两个问题之间的主要区别,因此为什么一个是回归,另一个是核密度估计,因为对于奖励,我们主要关注预期奖励(因此是回归),而对于状态转换,我们希望能够模拟这个所以我们需要估计的密度?
在David Silver 的第 8 讲中,他谈到了模型学习,并说学习从是一个回归问题,而学习从是核密度估计。他对差异的解释是,如果我们处于随机环境中并且我们在元组中那么可能有 30% 的机会风将我吹向左, 70% 的机会风将我吹向右,所以我们要估计这些概率。
是这两个问题之间的主要区别,因此为什么一个是回归,另一个是核密度估计,因为对于奖励,我们主要关注预期奖励(因此是回归),而对于状态转换,我们希望能够模拟这个所以我们需要估计的密度?
是这两个问题之间的主要区别,因此为什么一个是回归,另一个是核密度估计,因为对于奖励,我们主要关注预期奖励(因此是回归),而对于状态转换,我们希望能够模拟这个所以我们需要估计的密度?
是的。
来自的期望奖励函数是您为价值函数构建有效的贝尔曼方程所需的全部内容。例如
是为动作值编写贝尔曼方程的有效方法。你可以从和如果你有这种形式的方程。
然而,一般来说,当有多个可能的结果时(即在具有随机状态转换的环境中),不存在“预期状态”这样的东西。您可以对您看到的样本取状态向量表示的平均值但这根本不是一回事,很容易代表无法到达/无意义的状态。
在某些情况下,期望在哪里从任何给定状态创建特征向量,,可以是有意义的。最广泛和最简单的例子是确定性环境。即使它不代表任何可到达的状态,您也可以构建对此类向量有良好解释的随机环境。
通过表示状态的概率分布,可以使简单的 one-hot 编码状态像这样工作(这也需要重新解释预期的奖励函数和价值函数)。这实际上是离散状态空间上的核密度函数。
一般都知道这个期望值无助于解决未来的奖励,因为它们可以任意依赖于特定的状态转换。