机器算法验证 - kNN 回归的预测区间 - 吾爱随笔录

我想计算 kNN 回归所做预测的预测区间。我找不到任何明确的参考来确认，所以我的问题是——这种计算预测区间的方法是否正确？

我有一个参考数据集，其中每一行都是一个位置（例如城市）。我有两个特征（例如，x1 和 x2），描述了该地点人口的样本（例如，x1 可能是居民的平均收入）。每个位置的样本量不同。我根据 x1 和 x2 预测一个目标变量（例如，y，例如该城市的汽车总数）。

新位置 Z 的预测是通过根据 x1 和 x2（欧几里得距离）找到 Z 的 k 个最近邻居，并对这 k 个邻居的目标变量求平均值。

我将预测区间计算为 y* +- t*s，其中 s 是目标在 k 个最近邻中的标准差，t 来自标准正态分布（例如，对于 95% 的预测区间 t=1.96）。我忽略了 x1 和 x2，也忽略了 x1 和 x2 是在不同样本上估计的事实。这种方法有意义吗？