我也在ai.stackexchange上发布了这个问题,但没有得到任何答案,所以我可以在这里尝试。
这是一个复制粘贴:
假设您在 RL 设置中训练 NN,其中状态(即特征/输入数据)不会在每一步中发生变化,而是在几个(通常约为 8 步)中发生变化。
例如,一个状态可能包含以下值:
30, 0.2, 0.5, 1, 0
然后再次将相同的值增加 6-7 倍,最终得到以下输入数组:
[[30, 0.2, 0.5, 1, 0], [30, 0.2, 0.5, 1, 0], ..., [30, 0.2, 0.5, 1, 0]]
我知道特征集中的值 0 表示该特征的权重导致的价值微不足道。
但是价值观的重复呢?
如果有影响的话,这对学习有何影响?
有任何想法吗?
最好的,马里奥斯。
编辑:我不知道如何搜索这个特定的主题,它可能已经被回答>之前,也许你可以指出我那里。谢谢。
编辑:我被建议删除这个问题,只保留在 AI SE 上。但是,由于我已经被投了赞成票,人们可能想在这里追溯它以获得答案。
仅出于这个原因,我将问题留在这里,链接可以追溯到原始更新的问题和接受的答案。