机器算法验证 - 另一个 p 值谬误 - 吾爱随笔录

另一个 p 值谬误

机器算法验证假设检验统计学意义 p 值

2022-03-23 09:40:19

维基百科的例子说，如果硬币生成序列 1111111，那么它是不公平的。高交替率，例如 1010101010，同样是不公平的。

认为硬币是不公平的，因为它同样不可能看到任何序列，这是什么谬误？

我的意思是它通常通过说明 P(11111111) = P(00000000) = P(01010101) = P(10101010) = P (010101000) = P（任何其他序列）这一事实来“解决”。这说明硬币是公平的。但是，我将其解释为不可能仅仅因为所有概率的同一性以及因为 P(all one) = P(any sequence) 等而存在任何公平的硬币，所有这些都是极不可能的。

现在，我们有公平的硬币不可能是公平的。谬误在哪里以及如何正确应用 p 检验？

编辑假设是硬币是公平的，统计是发生序列的概率。我可以根据假设计算发生序列的概率。对于任何足够长的序列，理论概率太低，因此必须拒绝公平。谬误在哪里？

编辑2为什么没有人可以简单地说在第一个维基百科示例中指出了陷阱：p-criteria 没有考虑样本量？我什至可以轻视这个问题。忘记系列。让我们在假设均匀 0-100 分布的情况下评估选择单个项目 38 的概率。显然，它是 1%，这足够低，可以被偶然选择。但是，统计数据显示该项目出现在 100% 的案例中（每 1 次实验 1 次）。这显然不是偶然的，根据p-level检验，样本量也不足。因此，p检验必须辅以样本量分析。忘记这一点是错误的。正确的？

一个相关的问题：如果我抽取多个样本，哪个分布有选择 item38 的概率？如何取“极端情况”的积分？

4个回答

测试过程如下：

(1) 定义样本空间：10次抛硬币的1024个结果

(2) 陈述原假设：一枚公平的硬币；即 &等概率，独立抛 $\mathsf{H}$ $\mathsf{T}$

(3) 定义一个测试统计量：你可以使用正面总和，或者运行次数，或者任何你喜欢的

(4) 进行实验并计算观测值检验统计量：掷硬币 10 次

(5) 计算得到检验统计量值大于或等于观测值的概率（在原假设下）。

(5) 的结果是 p 值。它使您可以校准测试统计量。假设原假设确实为真：如果您要多次遵循此测试程序并在每次获得如此大或更大的测试统计值时（错误地）拒绝原假设，您会（错误地）拒绝它多次的分数 $p$

棘手的部分是（3）。你的直觉是正确的，每一个特定的序列都可以被看作是有利于某种替代方案而不是空值——一枚硬币有很多不同的方式可能是不公平的。但是你必须选择一个给你一些歧视的检验统计量。如果您想测试正面的概率是否不同于二分之一，并且对独立性没有那么怀疑，那么正面计数是一个很好的选择。如果您更关心独立性，那么同侧向上的跑步计数是一个很好的计数。如果有人告诉你他们要扔 $\mathsf{HHTHTHHHTT}$ 然后为了测试他们的能力，您可以让您的测试统计量在该序列出现时等于 1，否则为零。您不能做的是在实验后查看特定序列，说根据某些测试统计数据或其他数据是极不可能的，并在此基础上引用 p 值。

[回应您的评论：

(a)的 p 值不是一般的，而是取决于所使用的检验统计量。如果正面计数被用作检验统计量（当感兴趣的替代方案是正面概率大于时），更极端的情况是计数为 7、8 , 9, & 10, & 这些计数的概率将被加到 p 值中。我举了一个例子，有人说他们打算扔，&在这种情况下，但肯定不是在所有情况下，定义测试统计量是明智的，使得是最极端的值. $\mathsf{HHTHTHHHTT}$ $\frac{1}{1024}$ $\frac{1}{2}$ $\mathsf{HHTHTHHHTT}$ $\mathsf{HHTHTHHHTT}$

(b) 您可以在实验前后计算您喜欢的概率，但有效的 p 值来自预先定义的检验统计量，或者以任何速度独立于观察到的结果。如果您根据观察到的结果选择检验统计量，那么您将遵循与上述不同的程序，并且对假设重复的错误率的解释（这是引入 p 值的重点）将不会不再相关。

我认为这与 P 值无关。在任何情况下，您都无法指定您要进行的测试。

我认为公平硬币的通常定义是正面和反面的可能性相同，但没有什么可以排除“公平”是一个可以通过多种方式变得精确的模糊概念。在实践中，人们还应该警惕——举个例子——正面和反面的完美交替并怀疑硬币——或者更确切地说，可能是机器或抛硬币的人。其他种类的规律性也是可以想象的。

在这种情况下，要做的事情是针对这种行为设置一个特定的测试并计算 P 值（或者最好是某种关键参数的置信区间）。或者，根据需要使用贝叶斯。

所以，除了错误的问题可以给你一个不相关的答案的想法之外，我在这里看不到任何东西。

什么是隐式模型？

p = 1/1024 的概率是从的公平硬币模型推导出来的，具有独立的投掷，即。请注意，此模型对投掷序列是不变的，即。 $\Pr(H)=\Pr(T)=0.5$ $Cov(n_i,n_{i-1})=1$ $\Pr(HHT)=\Pr(HTH)=\Pr(THH)$

在这个模型下，HTHTHTHT 之类的序列是可疑的，因为它违反了第二个条件——投掷不显示独立性。

然而，OP 问为什么我们不应该考虑任何 n 元组是可疑的，因为任何n 元组的概率是，对于的“传统”截止值 . OP 在这个问题中未能认识到的是，他正在使用个人投掷模型来模拟 n 元组的 p 值。 $1 \over2^n$ $n>5$ $p<0.05$

在我看来，合适的模型是 vs，其中是第 i 个 k 元组。这遵循具有 k 个结果的多项分布，并且可以导出检验统计量。 $H_0:\Pr(T_{k,i})=\Pr(T_{k,i}) \forall i,j$ $H_A:\exists i,j: \Pr(T_{k,i}) \neq \Pr(T_{k,j})$ $T_{k,i}$

如果有误会你的机会，我会猜测你的意思。

我猜你的假设是硬币是公平的，对吧？而你的问题是如何测试这一点，如果事实上所有序列本身具有相同的发生概率。但是，当我们谈论 p 值时，这通常无关紧要。如果你愿意的话，至少不是从中央银行统计书籍中铸造的硬币。

好吧，如果硬币是公平的，那么我们可以（例如）假设投掷是伯努利分布的随机实验。如果我们假设，那么我们可以声明“1111111...”的结果是 n 次投掷该硬币的 n 二项分布的结果。
我们的假设是，这个实验，以 k 次成功投掷硬币 n 次源于二项式概率分布。在这种情况下，k=我们得到的“1”的数量，或者我们的成功。

所以我们可以检验这个假设，我们会发现它不太可能达到我们得到的连续“1”的数量。
事实上，这个概率并不等于所有其他序列，因为我们正在查看二项式分布的成功数量。事实上，“1”是成功的这一事实对我们来说并不重要。顺序无关紧要，因此序列的概率无关紧要。
p=0.5 的二项分布最有可能发生正面与反面一样多的情况。像这样，在 15 次投掷中，最“预期”的结果是 7.5：
二项式

通过这种方式，我们可以通过使用简单的二项式检验非常准确地否定硬币是公平的并且不存在谬误的假设。 http://en.wikipedia.org/wiki/Binomial_test

您的困惑似乎源于我们测试的不是正面数量而是序列的假设。在这种情况下，你是对的：每个序列都是同样可能的。但是，如果 k 小于 n，那么这些序列中的更多序列会生成 k 次投掷“1”，因此对于我们假设拥有的公平硬币，我们仅有“1”的序列不太可能正是因为所有投掷具有相同的概率去“1”或“0”

其它你可能感兴趣的问题

上一篇现代统计计算硬件的当前“标准”是什么？下一篇带有代码示例的机器学习书