我正在研究一个信息检索模型,用户输入一个查询,该模型必须检索 3 个最相关的常见问题解答对。我正在收集关于页面点击等方面的隐式反馈。我不明白的是如何定义状态,如果我想通过强化学习来实现这一点?如果我将每个查询定义为一个状态,所有状态都会不同。有人可以解释一下吗!!!
如果状态不再重复,强化学习会起作用吗?
数据挖掘
机器学习
深度学习
强化学习
q学习
dqn
2022-02-22 03:23:47
1个回答
我不相信将文档检索成功构建为强化学习问题会很容易工作。
但是,您的核心问题是可以回答的。这个问题出现在其他太大而无法探索所有可能状态的问题中。例如,在围棋游戏中,AlphaZero 系统不可能探索所有的棋局。同样,在许多已经成功应用强化学习的 Atari 游戏中,智能体不太可能看到系统的所有可能状态——通常它会在 100 万个视频帧上进行训练。
这个问题的答案是使用某种形式的函数近似,可以泛化到新的看不见的数据。这正是有监督机器学习模型所做的,因此 RL 代理将在内部使用一个,通常是线性回归或神经网络,以便从它探索的状态中学习到的值和/或策略将与类似的看不见的状态相关联(对于某些解释类似的)。
其它你可能感兴趣的问题