包含测量不确定性的统计检验

机器算法验证 假设检验
2022-03-30 03:53:36

假设我有两组质量测量值(以 mg 为单位),分别称为 y1 和 y2。我想做一个测试,以确定这两个样本是否来自具有不同平均值的人群。例如这样的东西(在 R 中):

y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)

我得到一个 0.3234 的 p 值,在 0.05 的显着性水平上,不要拒绝两组来自具有相同平均值的总体的原假设。现在我为每个测量给出了不确定性:

u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)

其中 u1[1] 是测量 y1[1] 中的组合标准不确定度(以此类推)。如何将这些不确定性纳入统计检验?

4个回答

听起来您想进行加权分析。请参阅SAS 文档的“概念”部分中的“加权统计示例” 。

为什么不模拟呢?也就是说,将您的不确定性作为噪声的实现添加到每个观察中。然后重复假设检验。这样做大约 1000 次,看看 null 被拒绝了多少次。您将需要选择噪声的分布。正常似乎是一种选择,但它可能会产生负面观察,这是不现实的。

您可以将其转换为回归问题并将不确定性用作权重。也就是说,从回归中的测量中预测组(1 或 2?)。

不确定性几乎是恒定的,因此使用它们似乎也不会发生太大变化。

您在 10.5 处有一个温和的异常值,这通过减少均值之间的差异使事情复杂化。但是,如果您可以相信不确定性,那么该值就不会比其他任何值更令人怀疑。

t 检验不知道您的替代假设是两个样本来自不同的总体。它所知道的只是在某些假设下比较手段。基于排名的测试是一种替代方法,但如果您对这些数据作为衡量标准感兴趣,那么它们听起来并不适合您的目标。

在普通最小二乘法(例如,lm(y~x))中,您允许在给定 x 值的情况下围绕 y 值进行可变性(不确定性)。如果围绕 (lm(x~)) 翻转回归,则可以最小化 x 附近的误差。在这两种情况下,都假定误差是相当均匀的。

如果您知道响应变量的每个观测值的方差量,并且当按 x 排序时该方差不是恒定的,那么您将需要使用加权最小二乘法。您可以通过因子 1/(方差)对 y 值进行加权。

如果您担心 x 和 y 都具有不确定性,并且两者之间的不确定性不相同,那么您不想简单地最小化垂直于您的轴之一的残差(地址不确定性)。理想情况下,您会最小化垂直于拟合趋势线的不确定性。为此,您可以使用 PCA 回归(也称为正交回归或总最小二乘法。有用于 PCA 回归的 R 包,并且以前在此网站上已发布过有关此主题的帖子然后在其他地方也进行了讨论. 此外,我认为(即,我可能错了......)你仍然可以利用你对方差的了解来做这个回归的加权版本。