机器算法验证 - 如何评估标准差？ - 吾爱随笔录

如何评估标准差？

机器算法验证标准差

2022-02-07 08:52:54

我收集了 85 人关于他们承担某些任务的能力的回答。

回答采用李克特五点量表：

5 = 非常好，4 = 好，3 = 一般，2 = 差，1 = 非常差，

平均得分为 2.8，标准差为 0.54。

我理解平均值和标准差代表什么。

我的问题是：这个标准偏差有多好（或多坏）？

换句话说，是否有任何指南可以帮助评估标准偏差。

3个回答

标准偏差不是“好”或“坏”。它们是数据分布程度的指标。有时，在评级量表中，我们希望广泛传播，因为它表明我们的问题/评级涵盖了我们正在评级的组的范围。其他时候，我们想要一个小的 sd，因为我们希望每个人都“高”。

例如，如果你在微积分课程中测试学生的数学技能，你可以通过问他们一些基本算术问题来获得非常小的 sd，例如 $3+2$ . 但是假设您对微积分进行了更严格的分班考试（即，通过的学生将进入微积分 I，未通过的学生将先学习较低级别的课程）。考虑到相同的测试，您可能会认为麻省理工学院新生的 sd 比南波敦克州立大学的 sd 更低（平均值更高）。

所以。你测试的目的是什么？样本中有哪些人？

简短的回答，这很好，而且比我从调查数据中预期的要低一些。但可能您的业务故事更多的是平均百分比或前 2 框百分比。

对于来自社会科学研究的离散量表，实际上标准差是平均值的直接函数。特别是，我通过对许多此类研究的实证分析发现，5 分制调查的实际标准偏差是最大可能变化的 40%-60%（唉，这里没有记录）。

在最简单的水平上，考虑极端情况，假设平均值为 5.0。标准差必须为零，因为平均 5 的唯一方法是每个人都回答 5。相反，如果平均值为 1.0，则标准误差也必须为 0。因此，在给定平均值的情况下，标准偏差是精确定义的。

现在中间有更多的灰色区域。想象一下，人们可以回答 5.0 或 1.0，但介于两者之间。那么标准差是均值的精确函数：

标准差 = sqrt ( (5-mean)*(mean-1))

任何有界尺度上答案的最大标准偏差是尺度宽度的一半。这里是 sqrt((5-3)(3-1)) = sqrt(2*2)=2。

现在当然人们可以回答介于两者之间的值。从我们公司调查数据的元研究中，我发现在实践中数字量表的标准偏差是最大值的 40%-60%。具体来说

100% 点刻度为 40%，
50% 为 10 点量表和
60% 为 5 点量表和
100% 用于二进制刻度

因此，对于您的数据集，我预计标准偏差为 60% x 2.0 = 1.2。你得到了 0.54，如果结果是不言自明的评级，这大约是我预期的一半。更复杂的测试组合的技能评级结果是否是平均值，因此方差会更低？

然而，真正的故事可能是相对于其他任务的能力如此之低或如此之高。报告技能之间的平均值或前 2 框百分比，并将分析重点放在这上面。

如果数据呈正态分布，您可以看到人口的位置。

68% 的人在均值 ( 2.26 - 3.34) 的 1 个标准差范围内：

在此处输入图像描述

95% 的人在均值 ( 1.72 - 3.88) 的 2 个标准差范围内：

在此处输入图像描述

它告诉你你的数字是如何“分散”的。

其它你可能感兴趣的问题

上一篇有没有办法禁用 CARET 中的参数调整（网格）功能？下一篇如何建模价格？