如何使用人工神经网络模拟大脑中发生的生理奖励机制?例如,是否有努力在人工神经网络中使用多巴胺或类似物质的概念。也许引入生理奖励机制可以导致意识的出现或至少增强强化学习的有效性?
本质上 - 神经网络模型如何奖励?人们的大脑将金钱视为最终的奖励,因为几乎所有其他东西都可以用它来购买。所以 - 拥有金钱的心理感知会带来回报。但是这种奖励的概念是如何在人工神经网络中建模的呢?网络如何知道一些钱已分配到网络的帐户,因此网络应该感到高兴和奖励,并应该努力重复成功的行为?
我正在阅读https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5293493/pdf/elife-21492.pdf,我希望它能让我朝着正确的方向前进。
这很令人困惑。老式的神经网络期望有两个独立的阶段:训练和推理。因此,网络在训练阶段接收到所有反馈(称为奖励),而在推理阶段网络没有接收到任何反馈。但也许网络在行为推理阶段也应该得到一些奖励,这是一种终身学习。