这个问题更多是关于基于统计数据的推理和决策,所以我希望我来对了地方。如果没有,请告诉我是否应该将此问题迁移到其他地方。
我有一个数据集,指定了不同鞋型的不同人的预测鞋码,以及手动测量的正确鞋码。
例如,预测人 #1 的鞋型号 A 的鞋码为 8,而她穿的实际尺码为 8.5。每条记录包括人、鞋型、预测尺码和实际尺码。我已经为每条记录计算了这两个值之间的增量,然后总结了所有鞋型的平均偏移量和标准偏差。这是偏移数据的示例(n是来自平均偏移的样本大小,并且为每个模型计算了标准偏差):
+-------+----------------+-----+----+
| model | Average Offset | SD | n |
+-------+----------------+-----+----+
| 1 | 0.4 | 1.0 | 16 |
| 2 | -0.8 | 0.8 | 5 |
| 3 | 0.8 | 0.7 | 10 |
| 4 | 0.5 | 0.9 | 12 |
| 5 | 0.7 | 0.8 | 6 |
| 6 | 0.1 | 0.9 | 28 |
| 7 | 0.5 | 0.8 | 16 |
| 8 | 0.1 | 0.7 | 18 |
| 9 | 0.3 | 0.5 | 6 |
| 10 | 2.7 | 0.3 | 5 |
| 11 | -0.2 | 0.6 | 33 |
| 12 | 1.0 | 0.5 | 6 |
| 13 | 0.0 | 0.0 | 5 |
| 14 | -0.1 | 0.6 | 13 |
| 15 | 0.0 | 0.4 | 4 |
| 16 | -0.9 | 0.5 | 7 |
| 17 | 0.2 | 0.8 | 9 |
| 18 | -0.2 | 0.8 | 20 |
| 19 | -1.1 | 0.7 | 9 |
| 20 | -0.1 | 0.6 | 14 |
| 21 | -1.1 | 0.8 | 55 |
| 22 | -1.2 | 0.8 | 12 |
| 23 | -0.3 | 0.5 | 12 |
| 24 | -0.1 | 0.4 | 10 |
| 25 | 0.6 | 0.9 | 29 |
+-------+----------------+-----+----+
如果您想知道为什么要针对每个鞋型进行分析,那么答案是我们从商店经验中知道,不同鞋型具有特定的结构和材料,这些结构和材料对鞋码偏好具有一致的影响。
现在回到我的实际问题:我的目标是将平均偏移量重新插入预测计算中,以根据先前记录的偏移量对其进行调整。
问题是——什么时候使用偏移值有意义,什么时候该值不可用。
我倾向于忽略 SD 接近平均值大小的平均偏移量,但从数学上讲,插入这样的平均值来调整该模型的所有预测可能是利大于弊。或者是吗?
什么是确定这些平均值中哪些有用的好方法?
欢迎提出其他见解或分析技术的建议。
