如何从样本指标推断整个总体的测试指标?

数据挖掘 公制 推理
2022-03-02 20:55:29

通常,我们会在测试集上计算 ML 模型的特定指标(并尝试使该测试集具有代表性)。我不清楚如何推断测试集所代表的人口的相同指标 - 即,假设我想回答:如果模型要在整个人口上运行,那么指标的置信区间是多少(例如)95% 显着性水平的问题?

现在对于一个简单的案例,我可以尝试使用我的基本统计知识:假设我有一个二元分类模型并且我有兴趣报告它的精度。

  1. 我在测试集上测量精度并将测试统计量定义为样本比例p^在全部示例中正确分类的示例
  2. 我还在不同的数据折叠上运行模型以获得每个折叠的精度,然后计算这些不同样本(折叠)精度值的标准偏差 - 称之为σ¯:这是我代表抽样比例分布的标准差。
  3. 或者,我可以测量每个折叠的标准偏差i作为σi=npi(1pi)在哪里pi是在该折叠中测量的精度。我假设具有序列大小的二项分布n和“成功”(正确预测)的概率作为精度pi. 然后我取所有这些的平均值σi得到“人口标准差”的估计值,然后除以n. 即如果我考虑的折叠数是k, 然后σ¯=Σj=1kσj/(kn)
  4. 使用2或3中的任一方法计算σ¯,我们估计总体精度为p^±1.96σ¯

或者我可以将间隔计算为(假设测试集大小m)

p^±tm,95%.p^(1p^)m
在哪里tm,95%是对应于 95% 显着性水平和样本量的 t 分布值m.

但是其他指标,如精确召回组合、平均绝对百分比误差、平均绝对误差、RMSE 等呢?显然,我并不期望每个指标都有一个配方,而只是一个关于我们如何获取任意指标的区间估计的一般想法。另外,上面描述的方法是否正确?

0个回答
没有发现任何回复~