数据挖掘 - 如果状态不再重复，强化学习会起作用吗？ - 吾爱随笔录

数据挖掘机器学习深度学习强化学习 q学习 dqn

2022-02-22 03:23:47

我正在研究一个信息检索模型，用户输入一个查询，该模型必须检索 3 个最相关的常见问题解答对。我正在收集关于页面点击等方面的隐式反馈。我不明白的是如何定义状态，如果我想通过强化学习来实现这一点？如果我将每个查询定义为一个状态，所有状态都会不同。有人可以解释一下吗！！！

1个回答

我不相信将文档检索成功构建为强化学习问题会很容易工作。

但是，您的核心问题是可以回答的。这个问题出现在其他太大而无法探索所有可能状态的问题中。例如，在围棋游戏中，AlphaZero 系统不可能探索所有的棋局。同样，在许多已经成功应用强化学习的 Atari 游戏中，智能体不太可能看到系统的所有可能状态——通常它会在 100 万个视频帧上进行训练。

这个问题的答案是使用某种形式的函数近似，可以泛化到新的看不见的数据。这正是有监督机器学习模型所做的，因此 RL 代理将在内部使用一个，通常是线性回归或神经网络，以便从它探索的状态中学习到的值和/或策略将与类似的看不见的状态相关联（对于某些解释类似的）。

其它你可能感兴趣的问题