在不同时间步长跨状态重复特征如何影响学习?

人工智能 神经网络 深度学习 强化学习 深度学习
2021-11-06 13:06:36

假设您在 RL 设置中训练神经网络,其中状态(即特征/输入数据)对于一个情节的多个连续步骤(通常大约 8 个步骤)可以是相同的。

例如,初始状态可能包含以下值:

[30, 0.2, 0.5, 1, 0]

然后再次将相同的状态输入神经网络,例如 6-7 倍以上,最终产生以下输入数组:

[[30, 0.2, 0.5, 1, 0], 
 [30, 0.2, 0.5, 1, 0], 
 ..., 
 [30, 0.2, 0.5, 1, 0]]

我知道特征集中的值 0 表示该特征的权重导致的价值微不足道。

但是价值观的重复呢?如果有影响的话,这对学习有何影响?有任何想法吗?

编辑:我将根据评论中的要求提供更多信息。

我一开始没有提供这些信息的原因是因为我认为在这种情况下,跨应用程序的问题/领域会有相似之处。但也可以让它更具体。

  1. 网络的输出是两条路径之间的概率。我们的网络必须根据收集到的一些网络统计数据选择最佳路径。

  2. 我将使用 A3C,因为参考书目中的类似工作已经取得了进展。

  3. 代理保持相同状态的原因是协议还可以同时做出路径选择决策,而无需实际更新网络统计信息。因此,在这种情况下,您将拥有相同的 RTT。

    一世。这是协议中并发的产物

    ii. 这是预期的行为

1个回答

在 RL 中,神经网络可以直观地被认为是使用输入特征作为“识别”输入状态(或输入状态 + 动作对)的表示。回想一下大多数人在学习 RL 时首先研究的“表格”RL 设置。在表格 RL 中,您有一个值表(状态值V(s), 或状态动作值Q(s,a)),每个状态的表中都有唯一的条目。这样的表可以完美地识别状态,或者换句话说,完美地消除不同状态的歧义。

在非表格的函数逼近设置中,使用诸如神经网络之类的函数逼近器,您通常不能再唯一地标识每个状态。相反,您使用这些状态的近似表示,并且近似表示您可能有多个看起来相同的不同状态;它们具有相同的输入特征。这是你正在处理的情况。现在,您明确指定这些具有相同表示/输入特征的多个状态在一个情节中立即相互跟随,但我认为这个细节并不是特别重要。如果这些具有相同表示的不同状态出现在同一集中的不同时间,您将遇到完全相同的问题。你真正遇到的唯一问题是消歧问题:你不知道如何消歧这些状态,因为它们看起来与网络相同。

该问题的严重程度取决于您的域。根据您的领域知识,您是否期望最优动作或最优值在所有这些具有相同特征的状态中是相似的?如果是这样,没问题!无论如何,您的网络已经认为它们是相同的,因此它将了解到相同的操作/相同的值在这些状态下是最好的。但是,尽管网络无法消除它们的歧义,但您是否期望这些状态下的最优动作/真值函数会大不相同?在这种情况下,问题会更加严重,因为您实际上无法期望您的网络能够学习所有这些不同状态的最优动作/价值函数。充其量,它可以学习它们之间的加权平均值(根据它们在您的训练集中出现的频率加权)。