交叉验证与置信区间的关系

数据挖掘 交叉验证 信心
2022-03-11 16:31:40

我从一个我忘记了“在交叉验证中,选择具有 95% 置信区间的最佳分数的模型”的来源中读到。
但是根据我的统计知识,为了使 CI(置信区间)起作用,您需要对实验的抽样统计数据进行正态假设。
但是,它似乎是如何从那个未知来源来的,它似乎只是简单地使用每个流的结果来构建样本均值和置信区间。在我看来,根本没有检查中心极限定理测试。在我看来,这也是人们正在做的事情:
i)自动假设抽样 MEANS 的正态性(而不是抽样分布)ii)自动满足 CLT。
我可以知道这是我的误解还是行业采用了过于宽松的规范?谢谢。

1个回答

这取决于如何生成置信区间 (CI)。最常见的方法是在样本均值上假设样本是从正态分布中抽取的。但是,可以从观察数据的任何统计数据中生成 CI。另一种方法是通过引导,对统计数据重新采样,这不需要正态性假设。