人工智能 - 神经网络能否学会使用反向传播来避免错误决策？ - 吾爱随笔录

我研究了迈克尔尼尔森关于神经网络和深度学习的文章，并根据他的例子开发了一个简单的神经网络。我了解反向传播的工作原理，并且我已经教过我的神经网络不仅可以玩井字游戏，而且还可以通过使用反向传播从他自己的成功中学习来改进自己的游戏。

继续我的实验，我面临的问题是，我不能总是向网络展示用于学习的好动作（可能是因为我根本不知道在某种情况下什么是正确的），但我可能需要向它展示要避免的不良举动（因为一些不良举动是显而易见的）。教网络使用反向传播做什么很容易，但我还没有找到一种方法来教它如何避免使用类似的技术。

是否可以使用像这样的负面例子来教授简单的神经网络，还是我需要其他技术？我的直觉说，有可能将梯度下降“反转”为梯度上升来解决这个问题。还是比这更复杂？