你的直觉是正确的,神经网络是不行的(见底部除外)。
您似乎想研究称为强化学习的 ML 子领域。简而言之,RL 提供了一组方法来学习在给定情况下采取的最佳行动。
更正式地说,在 RL 设置中,算法通过观察奖励(R) 关联到一个动作 (一个)。
RL 问题可以概念化为马尔可夫决策过程 (MDP)。从萨顿和巴托:
MDP 是顺序决策的经典形式化,其中行动不仅影响即时奖励,还影响随后的情况或状态,并通过这些未来的奖励。
MDP可以面对几种方法,主要是蒙特卡洛方法和时间差分学习。
简而言之,两者都以不同的方式使用贝尔曼方程。eq的一个关键组成部分。是贴现项(γ)。与未来状态相关的奖励值折现(乘以)γ< 1为了调节未来奖励的重要性。
由于您关心策略,因此另一种影响代理学习的方法。环境奖励是采用 epsilon 值ε < 1. 当定义一个ε-贪婪策略,代理会选择价值最高的动作问只有概率等于1 - ε. 这使代理能够平衡对先前经验的利用与对环境的探索。在立即的低奖励损害在剧集后期获得更高奖励的情况下非常有用。
还有许多其他方法可以影响您选择的学习者的行为,以对其环境做出不同的反应。为了获得完整的视图,我推荐 Sutton 和 Burton,他们在给定的链接上免费提供了 pdf 格式的书。
编辑:差点忘了。神经网络在与更经典的 RL 方法结合使用时会很有用,比如 Q-learning(一种时间差分学习),采用深度 Q-learning 的名称。Alpha go 还使用 Monte Carlo 方法与 2 个 NN 的组合用于价值评估和政策评估Wikipedia。如果没有对经典 RL 方法的清晰概述,我不一定会涉足这个领域。
希望这可以帮助。