我正在实施蒙特卡洛树搜索算法,其中选择过程是通过上置信界公式完成的:
def uct(state):
log_n = math.log(state.parent.sim_count)
explore_term = self.exploration_weight * math.sqrt(log_n / state.sim_count)
exploit_term = (state.win_count / state.sim_count)
return exploit_term + explore_term
但是,当节点的 sim_count 为 0 时,我无法选择 UCT 的初始值。我尝试使用 +inf (这将是合适的,因为从正面接近 lim -> 0 会给出无穷大),但这只是意味着算法将始终选择一个未探索的孩子。
你会建议什么作为 uct 的初始值?
先感谢您!