我们有一个音乐播放器,它有不同的播放列表,并自动从我所在的当前播放列表中推荐歌曲。我想让程序学习的是,如果我跳过这首歌,它应该会降低再次在这个播放列表中播放的概率. 我认为这就是所谓的强化学习,我已经阅读了一些关于算法的内容,认为马尔可夫决策过程 (MDP) 似乎正是我们这里所拥有的。我知道在 MDP 中有不止一个状态,所以我认为对于这种情况,这意味着不同的播放列表。例如,根据我所处的状态(播放列表),它会选择它认为最适合的歌曲,如果选择错误会受到“惩罚”(通过跳过)。
大家觉得这是正确的做法吗?或者你会建议一个不同的算法?所有这些是否有意义,我应该提供更多信息吗?
如果听起来不错,我想请教一些关于 R 中 MDP 的教程或起点。我在网上搜索过,但只在 R 中找到了 MDP 工具箱,这对我来说真的没有意义. 你有什么建议吗?