数据挖掘 - 强化学习中的学习率 - 吾爱随笔录

数据挖掘机器学习强化学习

2022-01-23 17:40:35

有谁知道如何从参与者数据中获取学习率？

我正在计算所有试验的所有预期值（=200）

V_{t} (S) = V_{t - 1} (S) + α \cdot {error}_{t}

$V_t(S) = V_{t-1}(S)+ \alpha \cdot \text{error }_t$

({error}_{t} = R_{t} - V_{t - 1} (S))

$(\text{error }_t = R_t − V_{t-1}(S))$

然后在每次试验中使用

α = (V_{t} (S) - V_{t - 1} (S)) / {error}_{t}

$\alpha= (V_t(S) - V_{t-1}(S) )/ \text{error }_t$

但这似乎不是正确的方法！

建议？

1个回答

如果您还有疑问，希望我的回答对您有所帮助。据我了解，您希望将 RL 模型拟合到执行决策任务的参与者数据。将 RL 模型拟合到数据的整个过程在Nathaniel Daw使用 RL 进行的 Trial by Trial analysis中详细描述。

简而言之，您观察到的（您的数据）只是每个时间步的行动和奖励。如果参与者正在使用 RL 模型，您应该期望根据以下内容更新其操作的值：

$Q_t(a_t)=Q_t(a_{t-1})+\alpha\cdot (r_t-Q_t(a_{t-1}))$

和使用玻尔兹曼函数的动作选择：

$p(a_{t}|s_{t})=\frac{e^{\beta Q(s_{t},a_{t})}}{\sum_{a'}e^{\beta Q(s_{t},a')}}$

我们更喜欢使用随机策略，因为它可以模拟更好的人类选择，并且可以直接创建似然函数。似然函数将是所有概率的乘积 $p(a_t|s_t)$ . 模型参数为 $[{\alpha,\beta}]$ 这些可以通过标准的最大似然技术推断出来。

最后，我们的假设（=模型）可以概括为：一个主体产生一系列（观察到的）动作。为了生成这些动作，我们假设使用带有一些参数的 RL 模型。我们希望将模型与数据拟合以推断这些参数并测试模型的适用性以及参数值的认知/心理联系。

其它你可能感兴趣的问题