根据过去预测的平均偏移量调整预测值

数据挖掘 统计数据 预测建模 描述性统计
2022-03-06 10:29:55

这个问题更多是关于基于统计数据的推理和决策,所以我希望我来对了地方。如果没有,请告诉我是否应该将此问题迁移到其他地方。

我有一个数据集,指定了不同鞋型的不同人的预测鞋码,以及手动测量的正确鞋码。

例如,预测人 #1 的鞋型号 A 的鞋码为 8,而她穿的实际尺码为 8.5。每条记录包括人、鞋型、预测尺码和实际尺码。我已经为每条记录计算了这两个值之间的增量,然后总结了所有鞋型的平均偏移量和标准偏差。这是偏移数据的示例(n是来自平均偏移的样本大小,并且为每个模型计算了标准偏差):

+-------+----------------+-----+----+
| model | Average Offset | SD  | n  |
+-------+----------------+-----+----+
|     1 | 0.4            | 1.0 | 16 |
|     2 | -0.8           | 0.8 |  5 |
|     3 | 0.8            | 0.7 | 10 |
|     4 | 0.5            | 0.9 | 12 |
|     5 | 0.7            | 0.8 |  6 |
|     6 | 0.1            | 0.9 | 28 |
|     7 | 0.5            | 0.8 | 16 |
|     8 | 0.1            | 0.7 | 18 |
|     9 | 0.3            | 0.5 |  6 |
|    10 | 2.7            | 0.3 |  5 |
|    11 | -0.2           | 0.6 | 33 |
|    12 | 1.0            | 0.5 |  6 |
|    13 | 0.0            | 0.0 |  5 |
|    14 | -0.1           | 0.6 | 13 |
|    15 | 0.0            | 0.4 |  4 |
|    16 | -0.9           | 0.5 |  7 |
|    17 | 0.2            | 0.8 |  9 |
|    18 | -0.2           | 0.8 | 20 |
|    19 | -1.1           | 0.7 |  9 |
|    20 | -0.1           | 0.6 | 14 |
|    21 | -1.1           | 0.8 | 55 |
|    22 | -1.2           | 0.8 | 12 |
|    23 | -0.3           | 0.5 | 12 |
|    24 | -0.1           | 0.4 | 10 |
|    25 | 0.6            | 0.9 | 29 |
+-------+----------------+-----+----+

并作为图表: 在此处输入图像描述

如果您想知道为什么要针对每个鞋型进行分析,那么答案是我们从商店经验中知道,不同鞋型具有特定的结构和材料,这些结构和材料对鞋码偏好具有一致的影响。

现在回到我的实际问题:我的目标是将平均偏移量重新插入预测计算中,以根据先前记录的偏移量对其进行调整。

问题是——什么时候使用偏移值有意义,什么时候该值不可用。

我倾向于忽略 SD 接近平均值大小的平均偏移量,但从数学上讲,插入这样的平均值来调整该模型的所有预测可能是利大于弊。或者是吗?

什么是确定这些平均值中哪些有用的好方法?

欢迎提出其他见解或分析技术的建议。

0个回答
没有发现任何回复~