我正在一个游戏环境中训练一个 RL 代理(特别是使用PPO 算法),左或右有 2 个可能的动作。
可以用不同的“力量”采取行动;例如向左走17% 或向右走69.3%。目前,我有代理输出 21 个动作 - 10 个用于左侧(以 10% 的增量),10 个用于右侧,以 10% 的增量和 1 个用于保持原位(什么都不做)。换句话说,代理输出和代理在环境中移动的力之间存在直接的 1-1 映射,增量为 10%。
我想知道,如果不是输出 21 个可能的动作,而是将动作空间更改为二进制输出并获得动作概率。概率将具有例如 [70, 30] 的形式。也就是说,以 70% 的概率向左走,以 30% 的概率向右走。然后我将这些概率通过非线性转化为实际所采取的作用力;例如,70% 概率的输出向左移动,实际上可能转化为以 63.8% 的力向左移动。
非线性平移不是由代理直接观察到的,而是会确定直接观察到的进行状态。
我不完全理解这样做会产生什么影响。是否有任何论据表明这会提高性能(奖励),因为代理不需要学习直接动作映射,而只是二元概率输出?