机器算法验证 - 成功前的预期价值？ - 吾爱随笔录

成功前的预期价值？

机器算法验证可能性期望值

2022-04-01 21:56:46

假设我们有一个 5 面不公平骰子的游戏（只是为了使概率更容易总和为 1），每一面都有不同的支出。

对于每一边我们都有相应的支出。但是，如果骰子落在处，则没有支付，游戏就结束了。 $x \in \{1,2,3,4\}$ $\$1,...,\$4$ $5$

每边分别有概率 $P(X=x) = \{0.15, 0.2, 0.25, 0.3, 0.1\}$

游戏的预期支出是多少？

如果我们直接应用期望值，我们会得到类似

\sum_{x} x_{i} p (x_{i}) = $ 2.5

$\sum_x x_ip(x_i)= \$2.5$

但是，以这种方式计算期望值背后的含义似乎只是捕获了 1 次试验的游戏期望值。

如何解决这样的问题？

4个回答

我本来想发表评论，但我仍然不能......所以我会给出一个完整的答案，希望我不会破坏任何家庭作业。

我要开始说这个五面不公平骰子的“获胜”面是一种干扰。我们可以重新安排计算并获得单次滚动的期望值：

E_{s} = 0.9 \cdot \sum_{i = 1}^{4} x_{i} \cdot \frac{p (x_{i})}{\sum_{i = 1}^{4} p (x_{i})} + 0.1 \cdot 0 = 0.9 \cdot E_{w}

$E_s = 0.9 \cdot \sum_{i=1}^{4}{x_i \cdot \frac{p(x_i)}{\sum_{i=1}^{4}{p(x_i)}}} + 0.1 \cdot 0 = 0.9 \cdot E_w$

其中是在我们获胜的假设下获胜的预期值（发生概率）。 $E_w$ $0.9 = \sum_{i=1}^{4}{p(x_i)} = 1 - 0.1$

这就像有一个装满硬币的硬币，您的概率，否则一无所获。 $E_w$ $0.9$

在“延长游戏”的情况下（即获胜允许我们继续），如果我们赢得了第一个掷骰，我们将获得的预期值（对于第一个成功的掷骰）加上我们的预期值......未定义的掷骰数，即我们所追求的。换句话说，多次滚动的期望值将是： $E_w$ $E_m$

E_{m} = 0.9 \cdot (E_{w} + E_{m})

$E_m = 0.9\cdot(E_w + E_m)$

E_{m} = \frac{0.9 \cdot E_{w}}{0.1} = \frac{E_{s}}{0.1} = \frac{E_{s}}{p (x_{5})}

$E_m = \frac{0.9 \cdot E_w}{0.1} = \frac{E_s}{0.1} = \frac{E_s}{p(x_5)}$

从另一个角度来看，我们可能会观察到，在反复抛硬币时，获得一次“成功”（在这种情况下是失败！）的尝试次数可以通过几何分布来建模。因此，我们可以将单次投掷的预期值乘以获得“成功失败”所需的平均投掷次数，即，并获得相同的结果。 $E_s$ $\frac{1}{p(x_5)}$

递归

我们可以用递归的方式定义游戏的期望值。让我们假设从游戏中获得的预期收益（直到游戏结束所有掷骰）为x.

使用您给出的滚动 {0.15,0.2,0.25,0.3,0.1} 和 { $ 1, $ 2, $ 3, $ 4, [游戏结束]} 的奖金的概率，滚动的预期价值是 $2.5加继续游戏的 90% 机会的价值——考虑到这个游戏的规则，很明显“继续游戏的权利”与“玩游戏的权利”一样有价值——如果游戏没有结束时，在第二次（或任何其他未来）掷骰开始时，我未来的潜在奖金（不包括先前掷骰的奖金）与游戏开始时完全相同。

所以我们可以在第一次滚动之前定义游戏的价值x=$2.5+0.9x，递归地引用价值本身 - 并且得到的方程很容易解决x=$25。

本质上，这相当于 Polettix 的答案，但恕我直言，这种方法更容易理解。

模拟，每条评论：在每次迭代中，骰子被滚动 400 次，但只5计算到第一次观察到的滚动。然后计算支出w，忽略5发生的试验。我选择了 400 卷，因为（很有可能）这足以获得5. 【编程草率，浪费随机数，但跑得很快。】

set.seed(1237)  # for reproducibility
pr = c(.15, 0.2, 0.25, 0.3, 0.1)
m = 10^6;  w = h = numeric(m)
for(i in 1:m) {
 x = sample(1:5, 400, rep=T, p=pr)
 h[i] = match(5,x); s = h[i]       # stopping point
 w[i] = sum(x[1:s])-5
 }
mean(w); mean(h)
[1] 25.00693     # aprx 9*2.777778 = 25; avg total payout
[1] 10.00337     # aprx 1/.1 = 10; avg trial number at stop

注意：可以summary(h)查看它是否与几何分布一致（并且不包含NA几乎不可能的 400 次运行中没有 at 的 s 5）。

summary(h)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      1       3       7      10      14     143

您赢得 2.5 EV 的几率为 0.9。您还可以赢得第二个 2.5。取决于赢得前 2.5 个的概率为 0.9，总概率为 0.9^2。您可以继续赢得 2.5，第 n 次获胜的概率为 0.9^n。所以你有了

$\sum (2.5*.9^n) = 2.5\sum .9^n$ ，这是一个几何级数。使用公式 $\sum r^n = \frac 1 {1-r}$ ，你得到总 EV 是 2.5*10 = 25。

您还可以使用其他答案中提到的代数：EV = 2.5+.9Ev -> EV = 25。这当然更简单，但我决定发布这两种方法，因为有人阅读这个答案的可能性非零并且它会使几何级数公式稍微不那么神秘。

PS 你可以有一个六面骰子，其中 5 和 6 的概率各为 0.05，任何一个都会导致失败。

其它你可能感兴趣的问题

上一篇人工智能的子领域会发生什么？(ML, 深度学习) 下一篇为什么多元回归的自由度为 n - k - 1？对于线性回归，为什么是 n - 2？