如何评估深度 Q 网络

人工智能 神经网络 深度学习 强化学习 dqn 软件评估
2021-10-31 06:54:22

美好的一天,很高兴加入这个 Stack。

在我的硕士论文中,我必须扩展一个深度强化学习网络,准确地说是一个深度 Q 网络,用于控制电网中的机器以进行电能质量管理。

评估网络在训练期间是否表现良好的最佳方法是什么?现在我可以访问奖励函数以及 q_value 函数。

奖励由 4 个数组组成,每个数组对应网络的每个学习标准。第一个元组是hard criteria(必须遵守),而后三个是soft criteria

Episode: 1/3000 Step: 1/11 Reward: [[1.0, 1.0, -1.0], [0.0, 0.68, 1.0], [0.55, 0.55, 0.55], [1.0, 0.62, 0.79]]
Episode: 1/3000 Step: 2/11 Reward: [[-1.0, 1.0, 1.0], [0.49, 0.46, 0.67], [0.58, 0.58, 0.58], [0.77, 0.84, 0.77]]
Episode: 1/3000 Step: 3/11 Reward: [[-1.0, 1.0, 1.0], [0.76, 0.46, 0.0], [0.67, 0.67, 0.67], [0.77, 0.84, 1.0]]

q_values 是我还不完全理解的数组。你们中的一个可以向我解释一下吗?我读了官方的定义Q-Values positive False Discovery Rate这些值可以用来评估神经网络训练吗?这些是Q-Valuesfor step 1

Q-Values: [[ 0.6934726  -0.24258053 -0.10599071 -0.44178435  0.5393113  -0.60132784
  -0.07680141  0.97968364  0.7707691   0.57855517  0.16273917  0.44632837
   0.00799532 -0.53355324 -0.45182624  0.9229134  -1.0455914  -0.0765233
   0.37784138  0.14711905  0.10986999  0.08918551 -0.8189287   0.14438646
   0.8869624  -0.43251887  0.7742889  -0.7671829   0.07737591  0.2569678
   0.5102049   0.5132051  -0.31643414 -0.0042788  -0.66071266 -0.18251896
   0.7762838   0.15322062 -0.06284399  0.18447408 -0.9609979  -0.4508798
  -0.07925312  0.7503184   0.6858963  -1.0436649  -0.03167241  0.87660617
  -0.43605536 -0.28459656 -0.5564517   1.2478396  -1.1418368  -0.9335588
  -0.72871417  0.04163677  0.30343965 -0.30024529  0.08418611  0.19429305
   0.44063848 -0.5541725   0.5740701   0.76789933 -0.9621064   0.0272104
  -0.44953588  0.13415053 -0.07738207 -0.16188647  0.6667519   0.31965214
   0.3241703  -0.27273563 -0.07130697  0.49683014  0.32996863  0.485767
   0.39242893  0.40508035  0.3413986  -0.5895434  -0.05772913 -0.6172271
  -0.12423459  0.2693861   0.32966745 -0.16036317 -0.36371914 -0.04342368
   0.22878243 -0.09400887 -0.1134861   0.07647536  0.04724833  0.2907955
  -0.70616114  0.71054566  0.35959414 -1.0539075   0.19137645  1.1948669
  -0.21796732 -0.583844   -0.37989947  0.09840107  0.31991178  0.56294084]]

还有其他评估 DQNetworks 的方法吗?我也很欣赏关于这个主题的文献。非常感谢您的宝贵时间。

1个回答

Q值表示采取行动后的预期回报一个处于状态s,所以他们确实告诉你在特定状态下采取行动有多好。更好的动作将具有更大的 Q 值。Q 值可用于比较动作,但它们在表示代理的性能方面没有多大意义,因为您没有什么可以比较它们的。您不知道实际的 Q 值,因此无法得出您的代理是否很好地逼近这些 Q 值的结论。

更好的性能指标将是每集/时期的平均奖励,或最后的平均奖励ñ继续任务的时间步长。如果您的代理正在提高其性能,那么它的平均奖励应该会增加。你说每个州都有奖励,其中一些代表比其他更重要的标准。您可以通过对标准奖励进行某种加权线性组合来绘制每集的平均奖励

R¯=R¯1w1+R¯2w2+R¯3w3+R¯4w4
在哪里R¯一世是标准的平均剧集奖励一世.这样你就可以在你的评估中为一些特定的标准提供更多的重要性。