我在维基百科上读到:
在分层 k 折叠交叉验证中,选择折叠以使平均响应值在所有折叠中大致相等。在二分分类的情况下,这意味着每个折叠包含大致相同比例的两种类别标签。
- 假设我们使用 CV 来估计预测器或估计器的性能。在这种情况下,平均响应值(MRV) 意味着什么?只是预测器/估计器的平均值?
- 在哪些情况下,在所有折叠中“实现大致相同的 MRV”实际上很重要?换句话说,不这样做的后果是什么?
我在维基百科上读到:
在分层 k 折叠交叉验证中,选择折叠以使平均响应值在所有折叠中大致相等。在二分分类的情况下,这意味着每个折叠包含大致相同比例的两种类别标签。
数据库系统百科全书中的交叉验证文章说:
分层是重新排列数据的过程,以确保每个折叠都能很好地代表整体。例如,在每个类包含 50% 的数据的二元分类问题中,最好将数据排列为在每个折叠中,每个类包含大约一半的实例。
关于分层的重要性,Kohavi(A study of cross-validation and bootstrap for accuracy estimation and model selection)得出结论:
与常规交叉验证相比,分层通常是更好的方案,无论是在偏差还是方差方面。
分层旨在确保每个折叠都代表数据的所有层。通常,这是以有监督的方式进行分类,旨在确保每个类在每个测试折叠中(大约)均等地表示(当然它们以互补的方式组合以形成训练折叠)。
这背后的直觉与大多数分类算法的偏见有关。他们倾向于平等地加权每个实例,这意味着过度代表的类获得了过多的权重(例如优化 F 度量、准确性或错误的补充形式)。对于对每个类别进行同等加权的算法(例如优化 Kappa、Informedness 或 ROC AUC)或根据成本矩阵(例如,为每个类别正确加权的值和/或每种方法的成本),分层并不是那么重要。分类错误)。参见,例如 DMW Powers (2014),F-measure 不测量的内容:特征、缺陷、谬误和修复。http://arxiv.org/pdf/1503.06410
即使在无偏见或平衡算法中也很重要的一个具体问题是,它们往往无法学习或测试一个根本没有在折叠中表示的类,甚至在只有一个类的情况下在折叠中表示不允许进行泛化。评估。然而,即使这种考虑也不是普遍的,例如不适用于单类学习,它试图确定单个类的正常情况,并在交叉验证的情况下有效地将异常值识别为不同的类是关于确定不生成特定分类器的统计信息。
另一方面,监督分层损害了评估的技术纯度,因为测试数据的标签不应该影响训练,但分层用于训练实例的选择。无监督分层也可能基于仅查看数据属性而不是真实类别的类似数据。参见,例如 http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997),用于准确性估计的交叉验证的无监督分层。
分层也可以应用于回归而不是分类,在这种情况下,就像无监督分层一样,使用相似性而不是同一性,但监督版本使用已知的真实函数值。
更复杂的是稀有类和多标签分类,其中分类是在多个(独立)维度上进行的。在这里,跨所有维度的真实标签的元组可以被视为类,以进行交叉验证。但是,并非所有组合都一定会出现,并且某些组合可能很少见。稀有类和稀有组合是一个问题,因为不能在所有测试折叠中表示至少出现一次但少于 K 次(在 K-CV 中)的类/组合。在这种情况下,人们可以考虑一种分层增强的形式(带替换的抽样以生成一个全尺寸的训练折叠,预期有重复次数,预期 36.8% 未选择进行测试,每个类的一个实例最初选择而不替换测试折叠) .
多标签分层的另一种方法是尝试单独分层或引导每个类维度,而不寻求确保组合的代表性选择。对于标签 l 有 L 个标签和 N 个实例以及 k 类的 Kkl 个实例,我们可以从相应的标记实例 Dkl 集合中随机选择(无需替换)大约 N/LKkl 个实例。这并不能确保最佳平衡,而是试探性地寻求平衡。除非别无选择(因为某些组合不会发生或很少见),否则可以通过禁止选择配额或超出配额的标签来改善这一点。问题往往意味着要么数据太少,要么维度不独立。
平均响应值在所有折叠中近似相等是另一种说法,即每个类在所有折叠中的比例近似相等。
例如,我们有一个包含 80 条 0 类记录和 20 条 1 类记录的数据集。我们可能会获得 (80*0+20*1)/100 = 0.2 的平均响应值,我们希望 0.2 是所有折叠的平均响应值。这也是 EDA 中测量给定数据集是否不平衡而不是计数的快速方法。