有没有一种有用的方法来定义“最佳”置信区间?

机器算法验证 假设检验 置信区间
2022-03-07 07:26:23

(比如说)95% 置信区间 (CI) 的标准定义只要求它包含真实参数的概率为 95%。显然,这不是唯一的。我所见过的语言表明,在许多有效的 CI 中,找到最短的、对称的或即使某些分布参数未知的情况下也能精确知道等的东西通常是有意义的。换句话说,似乎没有CI比其他“更好”的明显层次结构。

但是,我认为 CI 的一个等效定义是它由所有值组成,这样在看到实现的样本后,真实参数等于该值的零假设不会在适当的显着性水平上被拒绝。这表明只要选择自己喜欢的测试,就可以自动构建 CI。并且基于UMP(或无偏测试中的UMP)概念的测试之间存在标准偏好。

将 CI 定义为对应于 UMP 测试或类似的东西有什么好处吗?

2个回答

有点长的评论。查看Morey 等人在本文“置信区间置信的谬误”中对 UMP 的讨论。特别是,有一些例子:

“更奇怪的是,UMP 程序的间隔最初随着数据的不确定性而增加,但当可能性的宽度大于 5 米时,UMP 间隔的宽度与数据的不确定性成反比,像非参数区间一样。UMP 和抽样分布程序有一个可疑的区别,即它们的 CI 不能用于回溯到观察结果。尽管是“最强大”的程序,但 UMP 程序显然会丢弃重要信息。”

拒绝只是推理的一部分,不要卡在那里。你正在做决定。假设您需要决定是否在“检查引擎”灯亮起时去找机械师,或者忘记它。

所以,你的零假设是引擎很好,而光线只是麻烦。检查引擎灯是您的测试。假设 p 值为 5%,而您的重要性为,因此您不能拒绝空值,继续您的业务。这就是统计显着性以其幼稚的形式发挥作用的方式。α=0.01

这不是如何做出决定以及如何考虑经济意义。您必须计算使用 null 与拒绝它并选择替代 hypo 的成本。

我在上面的例子中完全省略了替代假设,因为每个人都是这样做的:他们认为替代假设只是某种形式,比如屈膝礼。在现实生活中,替代与 null 一样重要,因为这就是您计算不选择 null 的成本的方式。只有当您考虑到零成本和替代成本时,您才应该决定去或不去机械师。p 值和置信区间本身在这方面没有任何意义,只有与成本一起它们才有意义