假设您在 RL 设置中训练神经网络,其中状态(即特征/输入数据)对于一个情节的多个连续步骤(通常大约 8 个步骤)可以是相同的。
例如,初始状态可能包含以下值:
[30, 0.2, 0.5, 1, 0]
然后再次将相同的状态输入神经网络,例如 6-7 倍以上,最终产生以下输入数组:
[[30, 0.2, 0.5, 1, 0],
[30, 0.2, 0.5, 1, 0],
...,
[30, 0.2, 0.5, 1, 0]]
我知道特征集中的值 0 表示该特征的权重导致的价值微不足道。
但是价值观的重复呢?如果有影响的话,这对学习有何影响?有任何想法吗?
编辑:我将根据评论中的要求提供更多信息。
我一开始没有提供这些信息的原因是因为我认为在这种情况下,跨应用程序的问题/领域会有相似之处。但也可以让它更具体。
网络的输出是两条路径之间的概率。我们的网络必须根据收集到的一些网络统计数据选择最佳路径。
我将使用 A3C,因为参考书目中的类似工作已经取得了进展。
代理保持相同状态的原因是协议还可以同时做出路径选择决策,而无需实际更新网络统计信息。因此,在这种情况下,您将拥有相同的 RTT。
一世。这是协议中并发的产物
ii. 这是预期的行为