上下文老虎机的成本函数

机器算法验证 多项分布 梯度下降 多臂强盗 vowpal-wabbit 上下文强盗
2022-03-04 23:53:21

我正在使用vowpal wabbit来解决上下文强盗问题我正在向用户展示广告,并且我有相当多的关于广告展示环境的信息(例如,用户是谁,他们在哪个网站上,等等)。正如 John Langford 所描述的,这似乎是一个非常经典的上下文强盗问题

在我的情况下,用户对广告可能有两种主要反应:点击(可能多次)或不点击。我有大约 1,000 个广告可供选择。Vowpal Wabbit 需要一个action:cost:probability针对每个上下文的目标变量。就我而言,action并且probability很容易弄清楚:action是我选择展示的广告,以及probability根据我当前的广告展示政策选择该广告的可能性。

但是,我很难想出一种将收益(点击)映射到成本的好方法。点击显然是好的,同一个广告的多次点击也比同一个广告的单次点击要好。但是,不点击广告是中性的:除了错失点击机会之外,它实际上并没有让我付出任何代价(我在一个奇怪的广告环境中工作)。

我的一些想法是:

  1. 成本 = -1 * 符号(点击)+ 0 *(未点击)
  2. 成本 = -1 * 点击次数 + 0 *(未点击)
  3. 成本 = -1 * 符号(点击)+ 0.01 *(未点击)
  4. 成本 = -1 * 点击次数 + 0.01 *(未点击)

(0, 1, 5, 0)在这 4 个函数的成本的动作向量的情况下,将是:

  1. (0, -1, -1, 0)
  2. (0, -1, -5, 0)
  3. (0.01, -1, -1, 0.01)
  4. (0.01, -1, -5, 0.01)

显然还有很多其他方法可以表示这一点clicks=goodno clicks=bad.一般来说,我应该如何为 vowpal wabbit 中的上下文强盗问题建模成本?是否可以将收益表示为负成本,还是应该重新调整所有成本以使所有成本都为正?相对中立的行动是否可以零成本,或者我应该给他们一个小的正成本来推动模型走向积极行动?

1个回答

可能应该在这里咨询,以获得初步指导:https ://arxiv.org/pdf/1802.04064.pdf

这是一个经验评估。