通常,我们会在测试集上计算 ML 模型的特定指标(并尝试使该测试集具有代表性)。我不清楚如何推断测试集所代表的人口的相同指标 - 即,假设我想回答:如果模型要在整个人口上运行,那么指标的置信区间是多少(例如)95% 显着性水平的问题?
现在对于一个简单的案例,我可以尝试使用我的基本统计知识:假设我有一个二元分类模型并且我有兴趣报告它的精度。
- 我在测试集上测量精度并将测试统计量定义为样本比例在全部示例中正确分类的示例
- 我还在不同的数据折叠上运行模型以获得每个折叠的精度,然后计算这些不同样本(折叠)精度值的标准偏差 - 称之为:这是我代表抽样比例分布的标准差。
- 或者,我可以测量每个折叠的标准偏差作为在哪里是在该折叠中测量的精度。我假设具有序列大小的二项分布和“成功”(正确预测)的概率作为精度. 然后我取所有这些的平均值得到“人口标准差”的估计值,然后除以. 即如果我考虑的折叠数是, 然后
- 使用2或3中的任一方法计算,我们估计总体精度为
或者我可以将间隔计算为(假设测试集大小)
在哪里是对应于 95% 显着性水平和样本量的 t 分布值.
但是其他指标,如精确召回组合、平均绝对百分比误差、平均绝对误差、RMSE 等呢?显然,我并不期望每个指标都有一个配方,而只是一个关于我们如何获取任意指标的区间估计的一般想法。另外,上面描述的方法是否正确?