可能重复:
确切地说,置信区间是什么?
是的,以前也有人问过类似的问题,但许多答案似乎相互矛盾,并没有解决我的问题。(或者我对这个问题的看法。)
正如许多地方所提到的,大多数人在呈现区间和概率时可能会觉得直观的是,它表达了真实值在此范围内的可能性有多大。如果被告知出口民意调查的置信区间为 60-70,概率为 0.95,外行人可能(有理由地)预期,当出口民意调查有这个结果时,该区间实际上包含 95% 的时间的真实比例。数学表达:
问题是,这似乎是对可信区间的正确解释,也是对置信区间的常见误解。来自http://en.wikipedia.org/wiki/Confidence_interval:
给定实际获得的数据,置信区间并不预测参数的真实值具有处于置信区间内的特定概率。
那么置信区间是什么意思呢?维基百科说:
具有特定置信水平的置信区间旨在保证,如果统计模型是正确的,然后接管可能已经获得的所有数据,构建区间的过程将提供一个置信区间,其中包括真实的参数值的比例由置信水平设定的时间。
我觉得这个措辞非常令人困惑,但我理解这意味着给定每个 X,至少有 0.95 的概率得到一个 Y 的区间跨越 X:
这似乎与 Keith Winstein 在这里给出的置信区间和可信区间的解释一致:置信区间和可信区间有什么区别?(给定一个 cookie 罐,选择一个 cookie 的概率至少为 70 %)
如果这种理解是正确的,那么我看不出为什么置信区间有任何实际意义。每个区间都以难以掌握的方式依赖于其他区间,实际上与采样的实际结果没有任何强关联。
有人可以解释为什么这个概念如此普遍吗?(我意识到使用贝叶斯概率来获得可信区间可能是不可取的,但这并不一定会使 CI 成为一个好的选择。)