这是一个多臂老虎机问题的简单案例。正如您所注意到的,当您认为在短期内不是最理想的时候,您希望通过尝试未知硬币来平衡您收集的信息与利用您拥有的知识。
在经典的多臂老虎机问题中,您无法确定任一硬币的概率。但是,在这里你知道硬币 A 的价值,所以当你翻转 A 时,你不会得到任何信息。事实上,你不妨忽略 A 的随机性,并假设你得到一个单位1/2每个选择 A。这意味着如果抛硬币 A 是正确的,那么你应该继续抛 A。所以,你只想找到何时应该放弃 B的最佳停止规则。这取决于先验分布对于 B 的参数和试验次数。试验次数越多,探索就越有价值,所以你会更多地测试 B。
一般来说,我认为您无法摆脱动态规划问题,尽管可能存在可以更简单地找到和检查最优策略的特殊情况。
有了统一的先验,您应该在这里停下来:
(0 heads,3 tails),(1 head,5 tails),(2 heads,6 tails),(3,7),(4,8),...(31,35),(32,35),(33,36),(34,37),...(41,44),(42,44),...(46,48),(47,48),(48,49),(49,50).
在此策略下,您期望收集61.3299头。
我使用以下 Mathematica 代码来计算股票:
Clear[Equity];
Equity[n_, heads_, tails_] := Equity[n, heads, tails] =
If[n == 0, heads,
Max[1/2 + Equity[n - 1, heads, tails],
(heads + 1)/(heads + tails + 2) Equity[n - 1, heads + 1, tails] +
(tails + 1)/(heads + tails + 2) Equity[n - 1, heads, tails + 1]
]
]
作为比较,Thompson 采样启发式(Cam Davidson Pilon 声称这是最佳的)给出了平均 60.2907 个正面,比 1.03915 低。Thompson 抽样的问题是,它有时会在您有足够的信息知道这不是一个好的赌注时对 B 进行抽样,并且通常会浪费在信息最有价值时尽早抽样 B 的机会。在这种类型的问题中,您几乎从不会对您的选择无动于衷,并且有一个纯粹的最优策略。
tp[heads_, tails_] := tp[heads, tails] =
Integrate[x^heads (1 - x)^tails / Beta[heads + 1, tails + 1], {x, 0, 1/2}]
Clear[Thompson];
Thompson[flipsLeft_, heads_, tails_] := Thompson[flipsLeft, heads, tails] =
If[flipsLeft == 0, heads,
Module[{p = tp[heads, tails]},
p (1/2 + Thompson[flipsLeft-1,heads,tails]) +
(1-p)((heads+1)/(heads+tails+2)Thompson[flipsLeft-1,heads+1,tails] +
((tails+1)/(heads+tails+2)) Thompson[flipsLeft-1,heads,tails+1])]]