机器算法验证 - 关于掷硬币的求职面试问题 - 吾爱随笔录

关于掷硬币的求职面试问题

机器算法验证偏见

2022-01-31 16:24:21

在一次求职面试中，我被问到以下问题：

一枚硬币被翻转 1000 次，出现 560 次正面。你认为硬币有偏见吗？

你的答案是什么？

（我发现“量化报告中的'调查偏差'”问题相关（但没有得到回答）。）

4个回答

通过大量独立的伯努利试验，根据中心极限定理，样本比例呈近似正态分布。和 $\hat{p}= 0.56$ 和 $se(\hat{p}) = \sqrt{0.56(1-0.56)/1000} \approx 0.015$ . 假设的比例检验的样本检验统计量 $p=0.5$ 对应的公平硬币是 $Z \approx (0.56-0.50)/0.015 \approx 4$ . 使用原假设下检验统计量的抽样分布的正态近似，观察到 560 个或更多或 440 个或更少正面的概率非常小，小于 0.001，这是硬币不公平的有力证据。

称呼 $X$ 头数。

假设它没有偏见。它是 1000 个具有均值的独立伯努利变量之和 $0.5$ 和方差 $0.5\times 0.5=0.25$ . 它的意思是 $500$ 和方差 $250$ . 标准差是 $\sqrt{250}\approx 16$ .

直观地 $X$ 应该是 500 +/- 16。

$X$ 可以近似为正态分布（1000 足够大）。问题是：正态分布变量至少与均值有距离的概率是多少 $60/16=3.8$ 乘以标准差。您可以在此表中找到它：https ://en.wikipedia.org/wiki/Standard_normal_table

$p=1-2*0.49993=0.00014$

作为结论，如果硬币是无偏的，正面数量高达 560 的概率为 0.014%。这是相当小的。硬币肯定是有偏见的。

或者你可以使用一个 $\chi^2$ 测试https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test将得出相同的结论。

面试官也可能一直在使用这种方式来了解您在讨论统计结果时如何区分语言。其他答案已经明确，如果硬币是公平的，这是一个低概率事件。对于许多人来说，这可能足以证明存在偏见。但是，根据面试官对问题的措辞（以及导致问题的上下文），他们可能会寻找您做出区分，虽然“最佳”可用证据表明它存在偏见，但当然没有办法绝对肯定地知道这一点。

（尽管我有足够的证据证明我不会让任何人用那枚硬币来决定谁得到了肮脏的工作）。

我会谈论正态分布和平均值的标准偏差。

 Draw a nice normal distribution curve on a board.

然后问什么是biased的定义；基于与平均值的标准偏差数。

其它你可能感兴趣的问题

上一篇AIC 和 BIC 是否有可能给出完全不同的模型选择？下一篇当我们可以减少特征数量时，为什么要使用 PCA 来加速学习算法？