在最近发表的评论中,一位评论者指出了Larry Wasserman的博客,该博客指出(没有任何来源)频率论推理与似然原则相冲突。
似然原理简单地说,产生类似似然函数的实验应该产生类似的推论。
这个问题的两个部分:
在最近发表的评论中,一位评论者指出了Larry Wasserman的博客,该博客指出(没有任何来源)频率论推理与似然原则相冲突。
似然原理简单地说,产生类似似然函数的实验应该产生类似的推论。
这个问题的两个部分:
频率论方法中与似然原理相冲突的部分是统计检验理论(和 p 值计算)。它通常通过以下示例突出显示。
假设两个常客想要研究一个有偏见的硬币,它以未知的概率转动“正面”. 他们怀疑它偏向于“尾巴”,因此他们假设相同的零假设和相同的备择假设.
第一位统计学家掷硬币直到出现“正面”,这恰好是 6 次。第二个决定掷硬币 6 次,最后一次投掷只有一个“正面”。
根据第一个统计学家的模型,p值计算如下:
根据第二位统计学家的模型,p值计算如下:
更换经过, 第一个找到一个 p 值等于, 第二个找到一个 p 值等于.
所以,他们得到不同的结果是因为他们做了不同的事情,对吧?但根据似然原理,他们应该得出相同的结论。简而言之,似然原理指出,对于推理而言,似然是最重要的。所以这里的冲突来自这样一个事实,即两个观察具有相同的可能性,与(可能性取决于比例常数)。
据我所知,您第二个问题的答案更多是有争议的意见。出于上述原因,我个人尽量避免执行测试和计算 p 值,以及这篇博文中解释的其他原因。
编辑:现在我考虑一下,估计置信区间也会有所不同。实际上,如果模型不同,CI 会因构造而异。
我喜欢@gui11aume (+1) 的示例,但它给人的印象是两者的区别-values 仅由于两个实验者使用的不同停止规则而出现。
事实上,我相信这是一个更普遍的现象。考虑@gui11aume 答案中的第二位实验者:投掷硬币六次并且仅在最后一次投掷时观察到正面的人。结果如下所示:
但是为什么不采取另一个测试统计呢?例如,在这个实验中,我们连续观察到五个尾巴。让我们将最长的尾部序列的长度作为测试统计量。有连续有五个或六个尾巴的可能性,因此.
因此,如果在这种情况下错误率固定为,那么测试统计量的选择很容易使结果显着或不显着,这与停止规则本身无关。
现在,从哲学上讲,我会说测试统计量的常客选择在某种模糊的意义上类似于先验的贝叶斯选择。我们选择一个或另一个测试统计,因为我们相信不公平的硬币会以这种或那种特定的方式表现(并且我们希望有能力检测这种行为)。是不是类似于把硬币类型放在首位?
如果是这样,那么说所有证据都在可能性中的可能性原则并不与-值,因为-value不仅是“证据量”。它是“惊喜的衡量标准”,但只有当它解释了我们会感到惊讶的事情时,它才能成为惊喜的衡量标准!这-value 尝试将证据和某种先前的期望(如测试统计的选择所表示的)结合在一个标量中。如果是这样,那么不应该将其与可能性本身进行比较,而应该将其与后验进行比较?
我很想听听关于这个投机部分的一些意见,在这里或在聊天中。
恐怕我上面的例子错过了这场辩论的重点。选择不同的检验统计量也会导致似然函数的变化。所以两个不同- 上面计算的值对应于两个不同的似然函数,因此不能成为似然原理与-价值观。@gui11aume 示例的美妙之处在于似然函数保持完全相同,即使-值不同。
我仍然需要考虑这对我上面的“投机”部分意味着什么。