强化学习可以用于荷兰式拍卖吗?

数据挖掘 强化学习
2022-02-18 15:51:44

我对强化学习有以下想法:

  • 有 RL 代理和环境。代理可以执行动作,将它们发送到环境并接收观察和奖励(浮动)。
  • 会计问题:奖励可能会延迟。
  • 学习算法:Q-learning 就是一个例子。它基本上试图学习 State x Action 与奖励之间的映射,并像这样工作

强化学习能否适用于类似于荷兰式拍卖的环境?

  • 代理可以进行 3 种操作:提高、保持或降低价格
  • 代理商的目标是以最高价格出售该商品。所以代理人就是拍卖师。
  • 拍卖品不变。投标人是匿名的,因此不会暗示他们的行为。
  • 这意味着观察结果是相同的,只是到结束的时间变短了——与代理的动作无关。
1个回答

荷兰式拍卖是否可以被定义为强化学习问题取决于拍卖师的行为是否可以改变有意义的状态。

如果投标人的行为方式是简化的理性* - 例如,他们正在努力以一种简单的机制在物品达到他们决定支付的价格时购买该物品 - 那么拍卖师的行为不会有太大的不同,这是非常公式化,因为它已经是价格优化策略的一部分。动作之间没有有意义的状态变化——无论拍卖师做什么,投标人的估值和注意力都保持不变。在一个极端的自动化案例中,最佳操作是设置一个非常高的初始价格,然后以许多小增量降低它,以触发投标人可能的最高购买。这不是在真正的拍卖中进行的,因为它浪费了每个人的时间(而且在社交上会很奇怪)。但是,它向您显示了问题的框架存在问题。在基本的理性环境中,

当投标人本身不是纯粹理性的优化者(或者有一些与拍卖相关的其他未知值,例如他们愿意在过程中投入的个人时间,或与其他投标人的竞争)时,问题变得更加有趣,并且当某些信息是关于他们过去的行为,或者至少是关于人类行为的一般信息。在这种情况下,问题可以建模为部分可观察马尔可夫决策过程(POMDP),并且您可以关注可能因您的行为而有所不同的奖励 - 例如,作为拍卖人的“奇怪”行为使投标人感到不安的风险。由于匿名投标人,对此有限制。如果您保留了项目之间的投标人身份(如果单个拍卖包含多个项目与相同投标人的销售),那么您可能会获得有关每次销售的一些信息,以便更好地优化您在该拍卖中的操作。

具有状态行为的另一种可能的方式是,如果项目所有权具有价值,那么供需的市场力量就会生效(一旦投标人拥有一个项目,他们可能会降低下一个项目的价值,或者如果多个项目具有更高的价值,则可能会更高投标人在一起时)。同样,如果投标人的身份在多项目拍卖中保持不变,这只会与拍卖师相关,即使这样,只有在投标人中存在非理性定价行为时才会产生影响。

训练 RL 拍卖师与非理性投标人合作时,您将遇到的主要问题是对这些投标人进行建模。您也许可以使用人工拍卖师的真实拍卖数据进行引导——这仍然可以在 Q 学习框架中完成。Q-Learning 可以通过在限制范围内观察非最优行为来学习最优策略,最优动作仍然需要被观察,但不必都在相同的情节中。但是,通常要从该模型中改进并应用强化学习,您必须控制它。当它为了学习而探索不寻常的行为时,如果真金白银处于危险之中,这可能会使其成为一种责任——为了防范这种情况,您可能需要限制行动选择。


* 坚持“纯粹理性”的方法,你可以变得更老练。您可以将投标人建模为试图预测拍卖人和其他投标人的下一步行动,并提取最佳预期值,在这种情况下,您将问题更像是对抗性博弈论。这可能会使拍卖师的行为产生更大的影响。不过,最有趣的部分发生在投标人身上,而不是拍卖人,因为投标人必须将有意义的价值纳入拥有该物品的范围内,并足够聪明地猜测其他投标人的估值。

拍卖师的目标是找到出价最高的人愿意支付的最佳价格,并采取行动,使出价最高的人预测竞争对手会在下一个较低的增量上出价。这与实践中的非理性方法非常相似,但在模拟中更容易做到——在培训拍卖师之前,您需要一个好的投标人模拟模型,投标人可能需要是 RL 或类似的拍卖师和投标人模型也一起发展。

直观地说,假设博弈论模型在这里是稳定的,我预计拍卖师,除了投标人的数量之外没有其他信息,会有一个最优策略,其中售价以增量下降,与投标人的数量,因为更多的竞争对手意味着投标人将预测竞争对手愿意支付更接近他们自己评估的价值。部分随机的政策也可能对拍卖师有利,因为不可预测意味着投标人不能依靠准确地猜测下一次降价(尽管他们可能会通过选择是否随机投标来对抗)。