1 他们的意思并不像人们认为的那样
我说这不是 p 值是对的吗(这是看到测试统计的这个或更多极值的概率)?这是一个正确的统计测试程序吗?我有一种直觉,认为应用假设检验是错误的情况,但我无法正式回答原因。
有人可能会争辩说,从技术上讲,它是一个 p 值。但是,这是一个相当无意义的 p 值。有两种方法可以将其视为无意义的 p 值
Neyman 和 Pearson建议,为了计算 p 值,您选择似然比(在原假设和备择假设之间)最高的区域。当偏离原假设意味着更有可能进行极端观察时,您将观察视为“极端” 。
美国公民的例子并非如此。如果零假设“罗伯特是美国公民”是错误的,那么“罗伯特是美国参议员”的观察结果就不太可能了。因此,从 Neyman 和 Pearson 的假设检验方法的角度来看,这是一种非常糟糕的 p 值计算类型。
从Fisher 的假设检验方法的角度来看,您可以测量一些效果,并且 p 值的重点是量化统计显着性。它作为实验精度的表达是有用的。
p 值量化了实验在偏差量化方面的好坏程度。从统计学上讲,由于测量值的随机波动,总会在一定程度上产生影响。当一个观测值是一个足够大的波动时,它被认为具有统计学意义,以至于当实际上没有影响时(当零假设为真时),我们观察到表面上的影响的概率很低。很有可能我们观察到效果而实际上没有效果的实验并不是很有用。我们使用 p 值来表示这个概率。
通过报告 p 值,研究人员可以证明他们的实验具有足够小的噪音和足够大的样本量,因此观察到的效果在统计上是显着的(不太可能只是噪音)。
Fisher 的 p 值是噪声和随机波动的一种表达,它们是一种信噪比的表达。建议仅在效应与噪声水平相比足够大时才拒绝假设。
尽管在费舍尔的观点中没有替代假设,但当我们表达 p 值时,这样做是为了将某些效应测量为相对于零(无效应)假设的偏差。一定有某种方向感,可以认为是效果或偏差。
在美国公民实验的情况下,“罗伯特是美国参议员”的测量与某些效应的测量或与原假设的偏差无关。为它表达一个 p 值是没有意义的。
美国国籍的例子可能有点奇怪和错误。但是,这并不意味着正确。关键是要表明简单的 p 值不是很有意义和正确的。我们需要考虑的还有测试的力量(这在美国公民的例子中是缺失的)。低 p 值可能很好,但如果 p 值同样低,甚至更低,作为替代解释怎么办?如果您的假设检验不佳,那么我们可以基于(糟糕的)低 p 值“拒绝假设”,而实际上,没有替代假设更适合。
示例 1:假设您有两个罐子,一个装有 50% 的金币和 50% 的银币,另一个装有 75% 的金币和 25% 的银币。你从一个罐子里拿出10个硬币,都是银子,我们有哪个罐子?我们可以说先验赔率是 1:1,后验赔率是 1:1024。我们可以说这个罐子很可能是金银比为 50:50 的罐子,但是当我们观察 10 枚银币时,这两种假设都不太可能,也许我们应该不信任我们的模型。
示例 2:假设您有按二次曲线 y = a + cx^2 分布的数据。但是你用直线 y = a + b x 拟合它。当我们拟合模型时,我们发现零斜率(无影响)的 p 值极低,因为数据不匹配平线(因为它遵循二次曲线)。但这是否意味着我们应该拒绝系数 b 为零的假设?差异,低 p 值,不是因为原假设为假,而是因为整个模型为假(即当 p 值低时的实际结论,原假设和/或统计模型为假) .
2 他们依赖隐藏的假设
这似乎是错误的,但问题是:我们可以说非参数测试也依赖于一些规则的统计分布吗?他们不仅有假设,而且从技术上讲,他们的统计数据也遵循一些分布
非参数测试的重点是我们不对数据做任何假设。但是我们计算的统计数据可能遵循某种分布。
示例:我们想知道一个样本是否大于另一个样本。假设样本是配对的。然后在不知道分布的情况下,我们可以只计算哪一对更大。与抽取样本的总体分布无关,该符号统计量将遵循二项分布。
因此,非参数检验的重点不是计算的统计量没有分布,而是统计量的分布独立于数据的分布。
这个“他们依赖隐藏的假设”的观点是正确的。然而,它有点苛刻,并且在有限的意义上勾勒出假设(好像假设只是为了简化计算而进行的简化)。
事实上,许多模型都是简化的。但我会说参数分布仍然有用,即使我们现在拥有更多的计算能力并且没有必要进行简化。原因是参数分布并不总是简化。
一方面:自举或其他模拟可以接近与计算相同的结果,当计算做出假设、近似和简化时,自举甚至可能做得更好。
另一方面:如果参数分布为真,它会为您提供引导无法提供的信息。当您只有少量数据时,您无法正确估计 p 值或置信区间。使用参数分布,您可以填补空白。
示例:如果您有来自分布的十个样本,那么您可能会以 10% 的倍数估计分位数,但您将无法估计更小的分位数。如果您知道分布可以通过某种分布来近似(基于理论和先前的知识,这样的假设可能还不错),那么您可以使用与参数分布的拟合来内插十个样本并将其外推到其他分位数。
示例 2:将参数测试表示为仅对简化计算有用是稻草人的论点。这不是真的,因为它远非唯一的原因。人们使用参数测试的主要原因是因为它们更强大。例如,将参数 t 检验与非参数 Mann-Whitney U 检验进行比较。选择前者不是因为计算更容易,而是因为它可以更强大。
3 他们偏离了真正的问题
我们可以根据置信区间说什么是期望值吗?在这种情况下是一个明确的决定吗?我一直认为置信区间不一定是对称的,但我在这里开始怀疑。
不,置信区间不能提供完整信息。相反,您应该计算一些成本函数来量化决策中的所有考虑因素(需要完整分布)。
但置信区间可能是一个合理的指标。从单点估计到范围的步骤是一个很大的差异,并为表示增加了一个全新的维度。
您在这里的批评也正是博文作者的重点。您批评置信区间未提供完整信息。但是动作 A 的均值 0.08 和动作 B 的均值 0.001 的信息比置信区间还要少,这就是作者所指出的。
这第三点更多的是点估计与区间估计的问题。也许 p 值促进了点估计的使用,但将其用作对 p 值的批评有点牵强。该示例甚至不是关于 p 值的情况,而是关于两种情况的贝叶斯后验。