强化学习教科书

机器算法验证 机器学习 参考
2022-03-28 01:20:30

我正在寻找强化学习的教科书/讲义。我喜欢“统计学习导论”,但不幸的是它们没有涵盖这个主题。我知道Sutton 和 Barto 的书是标准参考书,也许NDP也不错,但它们的日期是 1997-98时间。

4个回答

我认为萨顿和巴托仍然是标准。有很多来自在线 AI 课程的幻灯片和笔记,但它们通常不会涉及太多细节。

Sutton 和 Barto 有点老了,但他们正在准备他们的教科书的第二版。可在此处获得日期为 2018 年 1 月的草稿链接自 Sutton 的网页,该网页也有第一版的全文。

在处理 Kochenderfer 等人的不确定性下的决策之前,我会先看看这个那本书有一些有趣的应用(主要是在航空领域),但它移动得很快,而且经常跳来跳去。Szepesvári 的强化学习算法也不错,但很简洁——它需要大约 20 页才能到达,而较新的 Sutton 和 Barto 需要 7 个章节和 150 页。TD(λ)

除此之外,您可以尝试深入研究一些论文——强化学习的东西往往很容易获得。

您可能想查看Csaba Szepesvári 于 2010 年出版的强化学习算法。可从网站下载 PDF。在我看来,它比 Sutton 和 Barto 更具技术性,但涵盖的材料更少。

在这里你有一些很好的教科书/参考资料:

经典的

萨顿 RS,巴托公司。强化学习:简介。马萨诸塞州剑桥:布拉德福德书;1998. 322 页。

第二版草稿可免费获得:https ://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

罗素/诺维格第 21 章:

Russell SJ、Norvig P、Davis E. 人工智能:一种现代方法。新泽西州上马鞍河:Prentice Hall;2010 年。

更多技术

Szepesvári C. 强化学习算法。人工智能和机器学习综合讲座。2010;4(1):1-103。 http://www.ualberta.ca/~szepesva/RLBook.html

Bertsekas DP。动态规划和最优控制。第 4 版。马萨诸塞州贝尔蒙特:雅典娜科学;2007. 1270 页。 第 6 章,第 2 卷免费提供:http ://web.mit.edu/dimitrib/www/dphapter.pdf

了解更多最新进展

Wiering M,van Otterlo M,编辑。强化学习。柏林,海德堡:施普林格柏林海德堡;2012 年可从: http: //link.springer.com/10.1007/978-3-642-27645-3

Kochenderfer MJ、Amato C、Chowdhary G、How JP、Reynolds HJD、Thornton JR 等。不确定性下的决策:理论与应用。1版。马萨诸塞州剑桥:麻省理工学院出版社;2015. 352 页。

多智能体强化学习

Buşoniu L、Babuška R、舒特 BD。多智能体强化学习:概述。在:Srinivasan D,Jain LC,编辑。多代理系统和应用程序的创新 - 1。施普林格柏林海德堡;2010 页。183–221。可从: http: //link.springer.com/chapter/10.1007/978-3-642-14435-6_7

施瓦茨 HM。多智能体机器学习:一种强化方法。新泽西州霍博肯:威利;2014 年。

视频/课程

我还建议在 YouTube 上开设 David Silver 课程:https ://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

我最喜欢的关于强化学习的讲义是 Andrew Ng 在斯坦福的 ML CS229 课程中的讲义:

加固学习笔记斯坦福CS229

您也可以在 iTunes 上下载讲座视频。或者在 youtube 上,它们从以下链接开始:

第十六讲 CS229