gung-Reinstate Monica的回答很好。我添加以下内容。实际上,没有真正的模型这样的东西。也没有真正的参数(因为这样的参数只在模型中定义)。我们所做的是使用模型来思考不同的现实,但是我们没有比人工形式模型更好的工具来进行定量陈述。
所以让我们想象一下,我们在现实中观察到的行为就像数据生成过程一样,可能无限重复,由带有参数的某个分布建模μ,比如说,我们在大脑中识别出一些我们感兴趣的真实数量。我们想要使用该模型来量化不确定性,因为我们认为真实过程具有一些随机变化,即我们下次我们做同样的事情时会得到其他数字,其精确解释要么无法观察,要么不感兴趣,要么不值得努力找出。我们想要的是一些迹象表明我们可能与我们的最佳猜测(参数估计)相距多远,因为我们通常从经验中确信,我们所拥有的数据不会准确地告诉我们发生了什么,但他们暗示了它,并有一些可能的变化。置信区间是一种使用模型思维来量化这一点的方法。它问:如果模型是正确的,哪些参数值可以产生我们观察到的数据?
置信区间为我们提供了一组参数值,如果模型为真,这些参数值都与观察到的情况兼容,即,如果置信区间中的任何值为真,则观察到的是现实的,至少是相当典型的事情,如果其他值是正确的,则非常不典型。因此它给出了一组“现实的”参数值。也就是说,正如我之前写的,这些都不是真的,但是只要我们从模型的角度考虑实际情况,就可以认为模型采用这些参数值之一。这可能看起来与现实相去甚远,但实际上很难做得更好。这就是模型的本质。(认知贝叶斯逻辑是另一种选择,但如果你以正确的方式看待它们,它会带来相当相似的问题。)
这种解释事物的谦虚方式的积极方面是它不依赖于模型设置的真正实现。特别是没有必要确实重复实验来赋予结果意义。无论如何,这是一种想象,一种思考情况的工具,其可能性或多或少接近现实。(显然,确实能够重复多次的好处是我们有更好的方法来评估模型世界是否与现实世界合理一致。)
问题:(1)正如我所写,该模型实际上是不正确的。这通常不是问题(实际上是模型的本质),但如果违反它的方式会使根据特定模型的思维具有很强的误导性,那么就会出现问题。一个典型的问题是,如果模型实际上假设它们是独立的,那么数据是否存在强正相关 - 你最终会得到一个太窄的置信区间。
(2) 置信区间在您指定置信水平的意义上过度简化了事情,然后参数要么输入要么输出。但是,分别与边界输入或边界输出的参数数据的兼容性差异并不大。如果你的置信区间是,比如说,[5,10],认为 5.1 是一个完全现实的值是不恰当的,而 4.9 则完全不是。相反,4.9 比 5.1 稍微不切实际,这可以想象为正确,但可能(取决于确切的模型、使用的统计数据等)远不如 7 现实。