博弈论和机器学习有什么区别?
我已经阅读了Jason Hartford 等人的Deep Learning for Predicting Human Strategic Behavior论文和 Anurag Agrawal 等人的When Machine Learning Meets AI and Game Theory 论文,但我无法理解。
博弈论和机器学习有什么区别?
我已经阅读了Jason Hartford 等人的Deep Learning for Predicting Human Strategic Behavior论文和 Anurag Agrawal 等人的When Machine Learning Meets AI and Game Theory 论文,但我无法理解。
这些都是很大的领域,所以这里是对差异的简要描述:
博弈论关注研究“博弈”的解决方案,这基本上是一组导致某些结果的决策。在博弈论中,您会研究为给定参与者实现最佳结果的策略。一个典型的例子(这实际上不是传统意义上的游戏)是囚徒困境:你和你的朋友被逮捕,如果你们中只有一个人作证反对另一个人,那个人会减刑,另一个一个更长的一个。如果你们都互相作证,你们都会得到中等判决,如果你们都保持沉默,你们都会自由。您不知道您的犯罪伙伴在做什么,所以您是 a) 作证,还是 b) 保持沉默?如果你保持安静,如果你的伴侣也有,你可能会自由保持沉默,但如果他作证,你会在里面很久。所以保持沉默是有风险的,即使你得到了更好的结果。如果您作证,您可能会避免更长的刑期,但也不会获得自由。你最好的选择是什么?
博弈论经常在经济学中用于模拟行为,因为理性的代理人会试图优化收益。
另一方面,机器学习是一种训练统计分类器的方法。您将特征输入算法,然后该算法会根据您训练它的数据为您提供特定的输出。这与博弈论本身没有任何关系,但我想您可以使用机器学习来训练算法以在游戏情况下选择移动,然后根据博弈论比较它如何匹配最佳选择。
正如我所说,这是一个非常简短的比较。有关更多详细信息,我建议您按照链接阅读这两个字段。
更新:现在论文可以访问了——博弈论确实被用作基准。在第一篇论文中,博弈论中的理性代理假设正在被建模,但没有人类专家告诉算法这意味着什么。所以你学习(使用深度学习)理性意味着什么。在第二篇论文中,作者试图学习一种比以牙还牙更好的算法,并且确实使用博弈论作为比较/评估的理论框架。
另一个答案给出了博弈论解决的这类问题的一个很好的著名例子,它部分描述了机器学习是什么。
但是,它并没有强调这种类型的博弈论问题,即您有两个或多个代理相互竞争,也出现在机器学习的背景下。更具体地说,机器学习也可以应用在多智能体系统的上下文中,在这个系统中,你有多个学习智能体在一个环境中相互竞争。这些问题的典型例子是两人棋盘游戏,如国际象棋、围棋或井字游戏,可以通过机器学习解决,特别是强化学习(一种特定类型的机器学习):例如,您可以学习后状态值函数来玩井字游戏。
RL 有一个子领域可以通过多个代理解决这些问题,称为多代理强化学习 (MARL)。一种将 MDP 推广到多个智能体的简单数学框架是马尔可夫博弈(又名随机博弈),它可用于对石头剪刀布或井字游戏等游戏进行建模。我们还可以将多智能体系统建模为单智能体系统,其中其他智能体被合并到环境中。如果您对 MARL 感兴趣,您可以阅读 Lucian Busoniu 等人的论文《多智能体强化学习综合调查》(2008 年)。
所以,我认为博弈论和机器学习之间有几个联系,甚至是 AI 的其他子领域,例如游戏 AI(例如,极小极大算法经常在 AI 程序中作为对抗性搜索算法的一个例子来教授;阅读本文以了解更多关于搜索和学习之间的区别)和进化算法(事实上,博弈论还有一个相关的子领域,称为进化博弈论)。