数据挖掘 - 如何将两个不同尺度但同样重要的“运行”信号组合成一个奖励函数？ - 吾爱随笔录

我在人工智能上问了这个问题，但没有得到答案，所以我把它移到这里。

我有两个信号，我想用它们来模拟强化学习算法的奖励。

第一个是CPU TIME:从这个图中运行的平均值：

第二个是该图中MAX RESIDUAL的运行平均值：

这两个信号同样重要，但它们的尺度非常不同。我可以像这样将信号线性组合在一起：

$r = w_\rho \rho + w_\tau \tau$

在哪里 $r$ 是奖励函数， $\tau$ 是CPU TIME: running mean和 $\rho$ 是最大残差。问题是，如何设置权重 $w_\tau,w_\rho$ 使贡献同样重要，如果 $\rho$ 和 $\tau$ 在非常不同的尺度上？

强化学习算法将根据奖励学习策略，如果一个信号的值比另一个小得多，它对奖励的影响就会小得多，这不是我想要建模的行为。

编辑：佩德罗的评论

对于缩放的平均 CPU 时间（消除振荡的平均值）和缩放的 MAX 残差，信号的线性组合似乎是可能的：