数据置信度的代数

机器算法验证 数理统计 置信区间
2022-03-29 14:37:38

很多时候,我们使用从一些测量中得出的数据。这些测量通常有一个相关的置信度测量,它告诉测量的可靠性,或者我们对测量的信心。例如,我们经常看到一些与各种民意调查相关的置信区间。

我想知道是否有关于组合多个测量值和由此产生的总体置信度测量值的理论或代数。例如,如果我用置信区间 \pm x\% 测量X,区间\的置信区间我能说什么同样,对于其他运算符的置信区间,我们能说些什么?X±x%Y±y%X+Y

有代数吗?

2个回答

[我注意到这个问题有些不明确;置信区间适用于参数之类的东西,以及参数的平均值或其他函数;如果我们谈论的是其他类型的区间(预测区间、容差区间等)的数据区间。我将继续进行,就好像我们正在讨论类似手段一样。]

如果我们坚持使用典型规模的民意调查,那么我们会让 CLT 参与进来;那么我们只是处理正态分布数量的方差。它取决于数量之间的依赖性(特别是协方差)。

Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

Var(XY)=Var(X)+Var(Y)2Cov(X,Y)

(这不依赖于正态性,它是一般性的;得到的置信区间的意义取决于正态性)

以及它们的和或差的置信区间的宽度基于它们各自的标准误差(方差的平方根)。XY

如果是独立的(例如,基于不同的民意调查),则方差相加,因为协方差为XY0

的 CI 的宽度平方,将它们相加,取平方根。这是总和或差的 CI 的宽度。XY

如果是来自同一个民意调查的两个比例,那是错误的,因为它们的协方差是负的。如果它们相加到 100% 或接近 100%,则直接添加它们的 CI 的宽度以获得差异的宽度。(对于总和,方差将是 0 - 如果它们没有完全加到 100%,则几乎是这样 - 并且宽度将是平方根的倍数)。使用多项式分布的结果通常可以实际计算协方差的估计值。XY

我不知道我是否会将它描述为一个特殊的代数本身,但你得到的基本思想是中心极限定理事实上,CLT 是统计数据的基石之一。尽管我们通常根据均值来讨论 CLT,但一组数字的均值与其总和之间存在明显的联系。您可以通过阅读链接的 Wikipedia 页面或通过在 CV 上搜索与该主题相关的线程来探索这个重要主题标签。这里有几个很好的主题可以帮助您入门: