使用分位数回归/分位数损失函数的置信度与预测区间

机器算法验证 机器学习 置信区间 分位数回归
2022-03-16 14:03:55

如果您为第 5 个和第 95 个百分位数拟合分位数回归,这通常被描述为 90%预测区间的估计值。这似乎是机器学习领域中最普遍的情况,其中随机森林已被用于预测具有分位数损失函数的每个叶节点或GBM的分位数。

这是最好的特征是置信区间还是预测区间?为什么?

2个回答

绝对是一个预测区间,例如看这里

分位数的分位数回归尝试在给定预测变量的响应变量,使得 所以 其中根据定义,是的预测区间。5th95thy0(x)y1(x)yx

P(Yy0(X))=0.05P(Yy1(X))=0.95
P(y0(X)Yy1(X)) = 0.90
90%

的预测区间应在的时间包含(尚未看到的)新数据相比之下,某些参数置信区间应该包含真实平均值,除非我们不幸在用于构建区间的数据中调到 1-in-10。90% 90%90%

发布后,我意识到它最准确地称为置信区间,无论 sci-kit learn 使用什么术语。

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/

“但是,必须记住,得到的置信区间是模型近似值,而不是真实的统计数据”。