您将计算每一集的回报,然后您将更新动作值或Q ( s , a ) 作为每集的平均值。使用 open AI gym中的二十一点示例并使用折扣因子 1,您会得到以下结果
第 1 集 [{'state': (22, 10, False), 'reward': -1, 'action': 1}, {'state': (17, 10, False), 'reward': 0, ' action': 1}, {'state': (12, 10, False), 'reward': 0.0, 'action': 1}]
Q ( ( 22 , 10 , F一l s e ) , 0 ) = - 1
Q ( ( 17 , 10 , Fa l s e ) , 1 ) = - 1
Q ( ( 12 , 10 , Fa l s e ) , 1 ) = - 1
第 2 集 [{'state': (21, 10, False), 'reward': 1, 'action': 0}, {'state': (17, 10, False), 'reward': 0, 'action ': 1}, {'state': (12, 10, False), 'reward': 0.0, 'action': 1}]
Q ( ( 21 , 10 , Fa l s e ) , 0 ) = 1
Q ( ( 17 , 10 , Fa l s e ) , 1 ) = 0
Q ( ( 12 , 10 , Fa l s e ) , 1 ) = 0
为了Q ( ( 17 , 10 , F又是),1 )_ _和Q ( ( 12 , 10 , F又是),1 )_ _是平均回报,即第一集为 -1,第二集为 1。