好的,我不确定是否有人还在检查这个(因为它是从一年前开始的),但这是我对你的问题的回答:“我可以遵循定义,但这篇文章并没有真正解释为什么计算应该不同不同的上下文。有人可以提供解释吗?
由于这些测量中的每一个的目的,计算是不同的。我会一一介绍。对于每一个,让我们考虑您参加了一项测试。我们知道,在一般人群中,某个测量的平均分数等于一个特定值(为简单起见,假设为 100)。有一个相关的标准偏差(比如说,15,以使其与您的图表保持一致)描述数据如何围绕该平均值分布。因此,如果您测量并绘制大量人口图形,您应该得到一条以 100 为中心的曲线,并具有由标准差定义的特定分布。
让我们也定义一些术语,以确保我们清楚它们的含义:
“真实分数” - 该分数的样本真实值(即当应用于该样本时,一台完全准确的机器将作为一个值吐出) “实际分数” - 应用于样本时机器的实际输出
测量标准误差
这基本上是对机器得分准确程度的衡量。例如,如果一个样本的真实分数是 90,那么一台完全准确的机器每次都会给你 90 分。但是,机器的可靠性越低,测量样品时的响应就会越多样化。一台稍微准确的机器可能会给你五次尝试的分数,分别为 85、87、91、90、92。不太准确的机器可能会给你 93、81、96、88、89 次尝试 5 次。将此视为基于多次测量同一个人的新曲线。那个人有一个“真实分数”,但机器会创建一个“实际分数”的分布。机器越不可靠,实际分数就越分散。
估计的标准误
这个描述有点混乱。它说“估计的标准误差是对候选人真实分数的可变性的估计,给定他们的实际分数。” 真实的分数不会变化——它是固定的。我想这想说的是,如果你有一群人的实际分数相同,那么这个衡量标准就是衡量他们真实分数的可变性。在这里,机器越可靠,这些人的实际分数之间的差异就越小。如果测量机器真的不可靠,这也是正确的(尽管对许多人来说违反直觉)。如果机器真的不可靠,我们基本上不知道那些人应该真正在哪里得分,所以他们很可能来自真实分布的中间(那是大多数人所在的地方),所以赢了'
预测标准误
预测的标准误差可以这样描绘。您使用机器对样品进行一次测量。假设它给你的值是 95。然后你说,“我预测如果我再次测量这个样本,我会得到 x 的分数。” 如果机器完全可靠,你可以说你会得到 95 分。但是机器越不可靠,你预测的可能性就越小。大多数情况下,你会说“我预测如果我再次测量这个样本,我会得到一个介于 x 和 y 之间的分数”。机器的可靠性越低,您必须提供的范围就越大,才能对您的预测充满信心。它更高,因为正如您在上面的评论中所说,您有两个不可靠性来源 - 您的初始测量和第二个(即将到来的)测量。
我希望他的帮助(并被看到!)。