强化学习可以分为哪些子类别?

人工智能 强化学习 蒙特卡罗方法 时差法 基于模型的方法 无模型方法
2021-10-26 03:13:41

在科学工作的过程中,我将讨论不同类型的强化学习。但是,我很难找到这些不同的类型。

那么,强化学习可以分为哪些子类别呢?例如,以下细分似乎很有用

  • 无模型和基于模型
  • 动态规划、蒙特卡洛和时间差异

还有其他人吗?

1个回答

你的两个建议并不相互排斥。如果你通过这个过程,你将不得不对一堆不同的 RL 分类做一个“笛卡尔积”,这会失控。如果可以的话,我建议改为描述某种“RL 分类法”。我的意思是描述不同的 RL 特征,而不假设它们是相互排斥的。

要添加到您的列表中:

  • 政策内或政策外
  • 基于价值或策略梯度