如何选择置信度?

机器算法验证 统计学意义 置信区间 介绍
2022-02-07 06:59:28

我经常使用 90% 的置信水平,接受它比 95% 或 99% 具有更大程度的不确定性。

但是有没有关于如何选择正确的置信水平的指导方针?或者不同领域使用的置信水平指南?

此外,在解释和呈现置信水平时,是否有任何指南可以将数字转化为语言?例如,像这样的 Pearson's r 指南(编辑:这些描述适用于社会科学):

http://faculty.quinnipiac.edu/libarts/polsci/Statistics.html(2020年 12 月 26 日页面无响应)

更新

感谢下面的答案。他们都非常有帮助、有见地和有启发性。

此外,以下是我在研究这个问题时遇到的一些关于选择显着性水平(本质上是同一个问题)的好文章。他们验证了以下答案中所说的内容。

3个回答

选择置信区间范围是一个主观决定。您可以从字面上选择任何置信区间:50%、90%、99,999% 等。这与您想要拥有多少置信度有关。可能最常用的是 95% CI。

至于解释和您提供的链接......这些解释过于简单化了。相关性是一个很好的例子,因为在不同的上下文中,不同的值可以被认为是“强”或“弱”的相关性,看看网络上的一些随机例子

  • 我曾经问过一位正在将实验室仪器校准到一个标准的化学家,她正在寻找什么相关系数值。“0.9 太低了。你至少需要 0.98 或 0.99。” 她从一份政府指导文件中得到了这个号码。
  • 我曾经问过一位工程师,他正在对处理过程进行回归分析,他在寻找什么相关系数值。“0.6 到 0.8 之间的任何值都是可以接受的。” 他的大学教授告诉他这一点。
  • 我曾经问过一位生物学家,他正在对生活在污染土壤和原始土壤中的田间老鼠的大小进行方差分析,他正在寻找什么相关系数的值。他不知道,但他的截止值是 0.2,这是基于他的模型可以检测到的与他拥有的样本数量的最小尺寸差异。

很抱歉,但没有捷径...

为了更好地了解置信区间是什么,您可以阅读更多关于它们的信息,例如这里这里这里

除了蒂姆的出色回答之外,甚至在一个领域内,特定置信区间的原因也不同。例如,在发胶的临床试验中,您可能希望非常确信您的治疗不太可能杀死任何人,例如 99.99%,但您的发胶使头发留住的置信区间为 75%,您会完全没问题直的。

一般而言,置信区间的使用方式应使您对不确定性感到满意,但也不应过于严格,以免将您的研究能力降低到无关紧要的程度。90% 的置信区间意味着在重复采样时,您会期望在 10 个区间中生成的一次将不包括真实值。根据您的研究,这可以接受吗?另一方面,如果您更喜欢 99% 的置信区间,那么您的样本量是否足以让您的区间不会变得无用大?(希望您在进行研究之前决定 CI 水平,对吧?)

根据我(在社会科学领域)和我妻子(在生物科学领域)的经验,虽然在各个领域和各种具体案例中都有 CI/显着性标准,但对于关于一个主题的大多数争论是您是否适当地设置了 CI 间隔或显着性水平。我参加过一些会议,一位统计学家耐心地向客户解释说,虽然他们可能喜欢 99% 的双边置信区间,但为了让他们的数据显示出显着性,他们必须将样本增加十倍;我参加过会议,客户问为什么他们的数据没有显示出显着差异,我们耐心地向他们解释这是因为他们选择了高间隔 - 或者相反,一切都很重要,因为要求的间隔较低。

我的建议是阅读您所在领域的一些主要论文(尽可能接近您的特定主题)并查看它们的用途;将其与您的舒适度和样本量相结合;然后准备好用手头的信息捍卫你选择的东西。除非你在一个规则非常严格的领域——我怀疑临床试验是唯一真正严格的,至少从我所看到的来看——你不会得到更好的。(如果有严格的规定,我希望你所在领域的主要论文都能遵守!)

虽然通常置信水平由分析师自行决定,但在某些情况下,它们是由法律和法规设定的。我给你举两个例子。

在银行监管中,计算某些风险时必须使用 99% 的置信水平,请参阅本巴塞尔法规中的第 2 页。

FDA可能会指示在其统计方法中使用某些置信度来进行药物和器械测试。

总体而言,咨询您所在领域的专家以了解有关置信水平的公认做法和规定是一种很好的做法。