在强化学习中代表相似的状态?

数据挖掘 强化学习 q学习
2021-09-27 16:11:24

假设我想设计一个学习玩扑克的 Q 学习算法。不同的可能状态的数量非常多,但很多都非常相似:例如,如果初始状态有 10 黑桃、4 张红桃、6 张梅花并持有红桃 K 和 Q,我会喜欢它影响相似状态的权重,就像不同花色的相同卡片一样。我该如何做到这一点?

2个回答

将你最大的花色定义为 suit1,如果最低的是不同的 suit2。然后对地面做同样的事情。

在您的示例中,它将是您手中的花色 1 和 4 花色的国王和王后,以及地面上的 10 花色和 6 花色。

我喜欢你使用“喜欢”这个词。它的意思是“具有相同的特征或品质;类似于”。这意味着在某些方面它是相同的,但意味着它在某些方面是不同的。对于这个问题,我会听到你的喜欢,就好像你在说“一般意义上的相似,但在驱动我目前的方法的方式上却足够显着不同”。

对您的主要问题的一种解释:我如何在状态空间中连接相似或有效相同的状态,以便在不必依赖组合学等先验知识的情况下最大限度地提高训练率和训练质量。

如果我必须这样做,我会使用图网络来表示转换路径,找到具有相似统计数据的连接组,然后作为配对测试优先探索。如果相似子图中的加权连接在容差范围内对齐,那么我们可以称它们为近似同构,然后设置类似文件链接的东西,以便在同构域中执行 q-learning 的任何尝试都只在非复制。只要明确指定“足够接近”,这可能会大大截断搜索空间。

(仍在工作)要做:

  • 设置扑克模拟并使用以图为中心的方法来处理同构区域
  • 与经典 Q 学习比较
  • 与组合(专家)加速比较
  • 也许找到一个“喜欢”的问题,使得组合方法不可行,并应用基于图的搜索空间缩减。