机器算法验证 - 折刀有当代用途吗？ - 吾爱随笔录

折刀有当代用途吗？

机器算法验证机器学习交叉验证引导程序最大熵折刀

2022-03-25 10:25:36

问题： Bootstrapping优于jackknifing；但是，我想知道在某些情况下，jackknifing 是从参数估计中表征不确定性的唯一或至少是一种可行的选择。此外，在实际情况下，相对于 bootstrap，jackknifing 的偏差/不准确程度如何，并且在开发更复杂的 bootstrap 之前，jackknife 结果能否提供初步见解？

一些背景： 朋友正在使用黑盒机器学习算法 ( MaxEnt ) 对“仅存在”或“仅肯定”的地理数据进行分类。一般模型评估通常使用交叉验证和 ROC 曲线来完成。但是，她正在使用模型的输出来导出模型输出的单个数字描述，并且想要围绕该数字的置信区间；Jackknifing 似乎是描述围绕该值的不确定性的合理方法。自举似乎不相关，因为每个数据点都是地图上的唯一位置，无法通过替换重新采样。建模程序本身可能最终能够提供她需要的东西；但是，如果/何时折叠刀有用，我对一般情况感兴趣。

1个回答

如果您采用jackknifing 不仅包括留一法，而且包括任何类型的无替换重采样，例如 $k$ -fold 程序，我认为它是一个可行的选择并经常使用它，例如在 Beleites等人中。: 星形细胞瘤组织的拉曼光谱分级：使用软参考信息。肛门生物肛门化学, 2011, 400, 2801-2816

另请参阅：交叉验证分类准确性的置信区间

我避免 LOO 有几个原因，而是使用迭代/重复 $k$ -折叠方案。在我的领域（化学/光谱学/化学计量学）中，交叉验证比自举验证更常见。对于我们的数据/典型应用程序，我们发现 $i$ 迭代次数 $k$ -折叠交叉验证和 $i \cdot k$ 自举性能估计的迭代具有非常相似的总误差[Beleites等人。：使用稀疏数据集估计分类误差的方差减少。Chem.Intell.Lab.Syst., 2005, 79, 91-100.]。

我看到迭代交叉验证方案优于自举的特别优势是，我可以很容易地推导出可以直观解释的稳定性/模型不确定性度量，并且它区分了性能测量中方差不确定性的两个不同原因，这两个原因在自举测量。
让我进行交叉验证/折断的一个推理是查看模型的稳健性：交叉验证直接对应于“如果我交换我的模型会发生什么”类型的问题 $x$ 案例 $x$ 新案例？”或“我的模型对通过交换扰动训练数据的能力有多强？ $x$ 案例？”这也适用于自举，但不太直接。

请注意，我不会尝试推导置信区间，因为我的数据本质上是聚集的（ $n_s$ 的光谱 $n_p \ll n_s$ 患者），所以我更愿意报告

使用平均观察到的性能的（保守的）二项式置信区间和 $n_p$ 作为样本量和
我观察到的方差 $i$ 交叉验证的迭代。后 $k$ folds，每个案例只测试一次，尽管使用不同的代理模型。因此，观察到的任何类型的变化 $i$ 运行必须是由模型不稳定引起的。

通常，即如果模型设置良好，2. 只需要表明它比 1. 中的方差小得多，因此模型是相当稳定的。如果 2. 证明是不可忽略的，那么是时候考虑聚合模型了：模型聚合仅有助于模型不稳定性引起的方差，它不能减少由于测试用例数量有限而导致的性能测量中的方差不确定性.

请注意，为了构建此类数据的性能置信区间，我至少会考虑在 $i$ 交叉验证的运行是平均值 $k$ 这种不稳定性的模型，即我会说模型不稳定性方差是 $k \cdot$ 交叉验证运行之间观察到的差异；加上由于有限案例数引起的方差 - 对于分类（命中/错误）性能度量，这是二项式的。对于连续测量，我会尝试从交叉验证运行方差中得出方差， $k$ ，以及不稳定性类型方差的估计 $k$ 模型衍生自

此处交叉验证的优点是您可以清楚地区分由模型不稳定性引起的不确定性和由有限数量的测试用例引起的不确定性。相应的缺点当然是，如果您忘记考虑有限数量的实际案例，您将严重低估真正的不确定性。然而，这也会发生在自举过程中（尽管程度较轻）。

到目前为止，推理集中在衡量您为给定数据集推导出的模型的性能。如果您考虑给定应用程序和给定样本大小的数据集，则对方差的第三个贡献从根本上无法通过重采样验证来衡量，请参见例如Bengio & Grandvalet: No Unbiased Estimator of the Variance of K-Fold Cross -验证，机器学习研究杂志，5, 1089-1105 (2004)。，我们也有数据显示贝莱特斯等人的这三个贡献。: 分类模型的样本量规划。, Anal Chim Acta, 760, 25-33 (2013)。DOI: 10.1016/j.aca.2012.11.007 )
我认为这里发生的事情是假设重新采样类似于绘制一个完整的新样本分解的结果。

如果要比较模型构建算法/策略/启发式而不是为应用程序构建特定模型并验证该模型，这一点很重要。

其它你可能感兴趣的问题

上一篇Scikit predict_proba 输出解释下一篇是什么导致空间相关图中出现 U 形图案？