我已经开始学习强化学习并尝试将其应用于我的用例。我正在开发一种 rl 代理,它可以将温度保持在特定值,并通过采取不同的行动来最小化设备的能源消耗。
我正在尝试为它制定一个奖励函数。
可以测量能量和 temp_act
energy_coeff = -10
temp_coeff = -10
temp_penalty = np.abs(temp_setpoint - temp_act)
reward = energy_coeff * energy + temp_coeff * temp_penalty
这是我正在使用的奖励功能,但直觉上,我觉得应该更好。因为 enenrgy 和 temp_penalty 的绝对值在不同的尺度上。在构建奖励时,我如何考虑扩展问题。