我正在寻找强化学习的教科书/讲义。我喜欢“统计学习导论”,但不幸的是它们没有涵盖这个主题。我知道Sutton 和 Barto 的书是标准参考书,也许NDP也不错,但它们的日期是 1997-98时间。
强化学习教科书
我认为萨顿和巴托仍然是标准。有很多来自在线 AI 课程的幻灯片和笔记,但它们通常不会涉及太多细节。
Sutton 和 Barto 有点老了,但他们正在准备他们的教科书的第二版。可在此处获得日期为 2018 年 1 月的草稿;链接自 Sutton 的网页,该网页也有第一版的全文。
在处理 Kochenderfer 等人的不确定性下的决策之前,我会先看看这个。那本书有一些有趣的应用(主要是在航空领域),但它移动得很快,而且经常跳来跳去。Szepesvári 的强化学习算法也不错,但很简洁——它需要大约 20 页才能到达,而较新的 Sutton 和 Barto 需要 7 个章节和 150 页。
除此之外,您可以尝试深入研究一些论文——强化学习的东西往往很容易获得。
您可能想查看Csaba Szepesvári 于 2010 年出版的强化学习算法。可从网站下载 PDF。在我看来,它比 Sutton 和 Barto 更具技术性,但涵盖的材料更少。
在这里你有一些很好的教科书/参考资料:
经典的
萨顿 RS,巴托公司。强化学习:简介。马萨诸塞州剑桥:布拉德福德书;1998. 322 页。
第二版草稿可免费获得:https ://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
罗素/诺维格第 21 章:
Russell SJ、Norvig P、Davis E. 人工智能:一种现代方法。新泽西州上马鞍河:Prentice Hall;2010 年。
更多技术
Szepesvári C. 强化学习算法。人工智能和机器学习综合讲座。2010;4(1):1-103。 http://www.ualberta.ca/~szepesva/RLBook.html
Bertsekas DP。动态规划和最优控制。第 4 版。马萨诸塞州贝尔蒙特:雅典娜科学;2007. 1270 页。 第 6 章,第 2 卷免费提供:http ://web.mit.edu/dimitrib/www/dphapter.pdf
了解更多最新进展
Wiering M,van Otterlo M,编辑。强化学习。柏林,海德堡:施普林格柏林海德堡;2012 年可从: http: //link.springer.com/10.1007/978-3-642-27645-3
Kochenderfer MJ、Amato C、Chowdhary G、How JP、Reynolds HJD、Thornton JR 等。不确定性下的决策:理论与应用。1版。马萨诸塞州剑桥:麻省理工学院出版社;2015. 352 页。
多智能体强化学习
Buşoniu L、Babuška R、舒特 BD。多智能体强化学习:概述。在:Srinivasan D,Jain LC,编辑。多代理系统和应用程序的创新 - 1。施普林格柏林海德堡;2010 页。183–221。可从: http: //link.springer.com/chapter/10.1007/978-3-642-14435-6_7
施瓦茨 HM。多智能体机器学习:一种强化方法。新泽西州霍博肯:威利;2014 年。
视频/课程
我还建议在 YouTube 上开设 David Silver 课程:https ://www.youtube.com/playlist?list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa
我最喜欢的关于强化学习的讲义是 Andrew Ng 在斯坦福的 ML CS229 课程中的讲义:
您也可以在 iTunes 上下载讲座视频。或者在 youtube 上,它们从以下链接开始: