不同标准测量误差的公式背后的原因是什么?

机器算法验证 预言 标准错误 可靠性 心理测量学
2022-03-17 02:09:00

McManus (2012) 讨论了测量的三个标准误差并提供了以下定义。

SEmeas=SD(1reliability)
测量的标准误差是对给定候选人的真实分数(不知道也无法知道)可能获得的实际分数的有效性的估计。

SEest=SD(reliability×(1reliability))
估计的标准误差是对候选人真实分数可变性的估计,给定他们的实际分数。

SEpred=SD(1reliability2)
预测的标准误差是在考虑到他们在第一次测试中的表现的情况下,对第二次测试时候选人实际分数的可变性的估计。

我发现令人困惑的一件事是 SEpred 在大约 0.6 的可靠性时达到了与 SEest 的最大分歧点。这是我制作的一个小 Excel 图表中的图像,它说明了这种现象。

在此处输入图像描述

我可以遵循定义,但这篇文章并没有真正解释为什么在不同的情况下计算应该不同。有人可以提供解释吗?

麦克马纳斯,IC(2012)。医学教育中对测量标准误差的误解:三种不同测量标准误差的问题、陷阱和特点的入门。医学教师,34, 569-576。

3个回答

好的,我不确定是否有人还在检查这个(因为它是从一年前开始的),但这是我对你的问题的回答:“我可以遵循定义,但这篇文章并没有真正解释为什么计算应该不同不同的上下文。有人可以提供解释吗?

由于这些测量中的每一个的目的,计算是不同的。我会一一介绍。对于每一个,让我们考虑您参加了一项测试。我们知道,在一般人群中,某个测量的平均分数等于一个特定值(为简单起见,假设为 100)。有一个相关的标准偏差(比如说,15,以使其与您的图表保持一致)描述数据如何围绕该平均值分布。因此,如果您测量并绘制大量人口图形,您应该得到一条以 100 为中心的曲线,并具有由标准差定义的特定分布。

让我们也定义一些术语,以确保我们清楚它们的含义:

“真实分数” - 该分数的样本真实值(即当应用于该样本时,一台完全准确的机器将作为一个值吐出) “实际分数” - 应用于样本时机器的实际输出

测量标准误差

这基本上是对机器得分准确程度的衡量。例如,如果一个样本的真实分数是 90,那么一台完全准确的机器每次都会给你 90 分。但是,机器的可靠性越低,测量样品时的响应就会越多样化。一台稍微准确的机器可能会给你五次尝试的分数,分别为 85、87、91、90、92。不太准确的机器可能会给你 93、81、96、88、89 次尝试 5 次。将此视为基于多次测量同一个人的新曲线。那个人有一个“真实分数”,但机器会创建一个“实际分数”的分布。机器越不可靠,实际分数就越分散。

估计的标准误

这个描述有点混乱。它说“估计的标准误差是对候选人真实分数的可变性的估计,给定他们的实际分数。” 真实的分数不会变化——它是固定的。我想这想说的是,如果你有一群人的实际分数相同,那么这个衡量标准就是衡量他们真实分数的可变性。在这里,机器越可靠,这些人的实际分数之间的差异就越小。如果测量机器真的不可靠,这也是正确的(尽管对许多人来说违反直觉)。如果机器真的不可靠,我们基本上不知道那些人应该真正在哪里得分,所以他们很可能来自真实分布的中间(那是大多数人所在的地方),所以赢了'

预测标准误

预测的标准误差可以这样描绘。您使用机器对样品进行一次测量。假设它给你的值是 95。然后你说,“我预测如果我再次测量这个样本,我会得到 x 的分数。” 如果机器完全可靠,你可以说你会得到 95 分。但是机器越不可靠,你预测的可能性就越小。大多数情况下,你会说“我预测如果我再次测量这个样本,我会得到一个介于 x 和 y 之间的分数”。机器的可靠性越低,您必须提供的范围就越大,才能对您的预测充满信心。它更高,因为正如您在上面的评论中所说,您有两个不可靠性来源 - 您的初始测量和第二个(即将到来的)测量。

我希望他的帮助(并被看到!)。

只有第一个是测量的标准误差。用同一个名字称呼他们三个只会混淆事情。参见 Lord & Novick 的心理测验分数统计理论中的第 3.8 节测量、估计和预测错误,第 66-69 页,Addison-Wesley,1968 年。

您正在测量 3 种不同的事物,为什么您期望只有一个标准误差?直觉上,你可能会有不同的手段。这与标准错误相同。

通过您的示例,您可以看到在第三个过程中您采取了 2 项措施,这可能比仅采取一项措施更可靠。

计算不同,因为上下文不同。来自维基百科:“标准误差是统计数据的抽样分布的标准偏差。[1] 该术语也可用于指代该标准偏差的估计值,源自用于计算估计值的特定样本。” 如果您估计不同的事物,您将有不同的标准错误。标准误差的表达将取决于您的测量。