关于强化学习 (RL) 应用程序最常见的误解之一是,一旦部署它们,它们就会继续学习。而且,通常情况下,我不得不解释这一点。作为我解释的一部分,我喜欢展示它在哪里被使用和在哪里不被使用。
我对该主题进行了一些研究,但这些描述似乎相当学术,我认为强化学习并不真正适合受监管市场的金融服务。
我错了吗?如果是这样,我想知道 RL 在哪里使用?此外,在这些情况下,这些 RL 算法是否会随着时间的推移适应新数据?您如何确保他们不会接受数据点或以其他方式做出被认为不可接受的决定?
关于强化学习 (RL) 应用程序最常见的误解之一是,一旦部署它们,它们就会继续学习。而且,通常情况下,我不得不解释这一点。作为我解释的一部分,我喜欢展示它在哪里被使用和在哪里不被使用。
我对该主题进行了一些研究,但这些描述似乎相当学术,我认为强化学习并不真正适合受监管市场的金融服务。
我错了吗?如果是这样,我想知道 RL 在哪里使用?此外,在这些情况下,这些 RL 算法是否会随着时间的推移适应新数据?您如何确保他们不会接受数据点或以其他方式做出被认为不可接受的决定?