关于掷硬币的求职面试问题
机器算法验证
偏见
2022-01-31 16:24:21
4个回答
通过大量独立的伯努利试验,根据中心极限定理,样本比例呈近似正态分布。和和. 假设的比例检验的样本检验统计量对应的公平硬币是. 使用原假设下检验统计量的抽样分布的正态近似,观察到 560 个或更多或 440 个或更少正面的概率非常小,小于 0.001,这是硬币不公平的有力证据。
称呼头数。
假设它没有偏见。它是 1000 个具有均值的独立伯努利变量之和和方差. 它的意思是和方差. 标准差是.
直观地应该是 500 +/- 16。
可以近似为正态分布(1000 足够大)。问题是:正态分布变量至少与均值有距离的概率是多少乘以标准差。您可以在此表中找到它:https ://en.wikipedia.org/wiki/Standard_normal_table
作为结论,如果硬币是无偏的,正面数量高达 560 的概率为 0.014%。这是相当小的。硬币肯定是有偏见的。
或者你可以使用一个测试https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test将得出相同的结论。
面试官也可能一直在使用这种方式来了解您在讨论统计结果时如何区分语言。其他答案已经明确,如果硬币是公平的,这是一个低概率事件。对于许多人来说,这可能足以证明存在偏见。但是,根据面试官对问题的措辞(以及导致问题的上下文),他们可能会寻找您做出区分,虽然“最佳”可用证据表明它存在偏见,但当然没有办法绝对肯定地知道这一点。
(尽管我有足够的证据证明我不会让任何人用那枚硬币来决定谁得到了肮脏的工作)。
我会谈论正态分布和平均值的标准偏差。
Draw a nice normal distribution curve on a board.
然后问什么是biased的定义;基于与平均值的标准偏差数。