数据挖掘 - 类不平衡数据集的 SMOTE 过采样在最终分布中引入了偏差 - 吾爱随笔录

类不平衡数据集的 SMOTE 过采样在最终分布中引入了偏差

数据挖掘机器学习数据阶级失衡打击

2022-03-09 15:40:54

我有一个问题陈述，其中商品的百分比（用 0 表示）为 95%，而对于坏货（用 1 表示）只有 5%。一种方法是对商品进行欠采样，以便模型正确理解这两个部分的模式。但是采样不足会导致大量数据丢失，这将直接降低我的模型性能。因此，我选择了对坏品进行过度采样，但过度采样也有其自身的问题：

检查此代码段：

from imblearn.over_sampling import SMOTE

sm = SMOTE(random_state = 33)

x = train_data.drop(['target'], axis = 1)
y = train_data[['target']]

x_new, y_new = sm.fit_sample(x, y)

y.target.value_counts()     # 0 ->  26454  1-> 2499
y_new.target.value_counts() # 0 ->  26454  1-> 26454

过采样后，我得到了相同的结果。商品和坏品，但问题是变量分布受到影响。

例如，我有“年龄”变量，在好的情况下，桶变量分布是

 1 - 25 years - 20%
26 - 50 years - 35%
50+     years - 45%

坏的分布是（过采样之前）：

 1 - 25 years - 50%
26 - 50 years - 30%
50+     years - 20%

但是过采样后坏的分布正在发生变化：

 1 - 25 years - 40%
26 - 50 years - 35%
50+     years - 25%

所以现在这个变量对于好与坏的分布并不像以前那样有效（在过采样之前）。

有什么方法可以使过采样不会影响我的变量分布？

1个回答

类不平衡是机器学习中的一个常见问题，平衡数据的技术通常有两种形式：对大多数进行欠采样，对少数进行过采样或两者兼而有之。

人们总是可以根据一些变量对数据进行分区，并分别对每个分区进行过采样，以保持某种度量（例如给定的数据分布）。以同样的方式，可以实现单独的过采样仅 $1$ 变量，以同样的方式可以实现单独的过采样 $n$ 变量。当然更复杂，但肯定是可行的。例如，采用所有不同的变量组合（或连续变量的变量范围）并分别对每个这样的集群进行过采样，以保持给定的数据分布。

以上是一种简单的技术，尽管应该注意，如果少数类没有足够的样本，则不能保证给定的数据分布反映了（真实的）基础数据分布（换句话说，它可能不构成统计中的代表性样本）感）。因此，对于这些情况，对整个数据进行过采样，而不对基础分布进行额外假设，在统计意义上是一种最大无偏的方法。

最近有一些关于（过采样）类不平衡问题的混合和智能方法的研究，而不会在过程中引入偏差。以下参考资料将提供相关背景：

不平衡数据集的交叉验证：避免过度乐观和过度拟合方法，2018 年 10 月

尽管交叉验证是性能评估的标准程序，但它与过采样的联合应用对于远离不平衡数据主题的研究人员来说仍然是一个悬而未决的问题。一个常见的实验缺陷是将过采样算法应用于整个数据集，导致模型有偏差和估计过于乐观。我们强调并区分过度乐观和过度拟合，表明前者与交叉验证过程相关，而后者受所选择的过采样算法的影响。此外，我们在数据复杂性分析的支持下，对成熟的过采样算法进行了彻底的经验比较。最好的过采样技术似乎具有三个关键特征：使用清洁程序，

从不平衡数据中学习，2009 年 9 月 9 日

随着许多大规模、复杂和网络化系统（例如监控、安全、互联网和金融）中数据可用性的不断扩展，提高对原始数据中知识发现和分析的基本理解以支持决策变得至关重要制作过程。尽管现有的知识发现和数据工程技术在许多实际应用中取得了巨大成功，但从不平衡数据中学习的问题（不平衡学习问题）是一个相对较新的挑战，越来越受到学术界和工业界的关注。不平衡学习问题涉及在数据表示不足和严重的类分布偏斜的情况下学习算法的性能。由于不平衡数据集固有的复杂特性，从这些数据中学习需要新的理解、原则、算法和工具，以有效地将大量原始数据转换为信息和知识表示。在本文中，我们全面回顾了从不平衡数据中学习的研究进展。我们的重点是对问题的性质、最先进的技术以及用于评估不平衡学习情景下的学习表现的当前评估指标进行批判性审查。此外，为了激发该领域的未来研究，我们还强调了从不平衡数据中学习的主要机遇和挑战，以及潜在的重要研究方向。以及有效地将大量原始数据转换为信息和知识表示的工具。在本文中，我们全面回顾了从不平衡数据中学习的研究进展。我们的重点是对问题的性质、最先进的技术以及用于评估不平衡学习情景下的学习表现的当前评估指标进行批判性审查。此外，为了激发该领域的未来研究，我们还强调了从不平衡数据中学习的主要机遇和挑战，以及潜在的重要研究方向。以及有效地将大量原始数据转换为信息和知识表示的工具。在本文中，我们全面回顾了从不平衡数据中学习的研究进展。我们的重点是对问题的性质、最先进的技术以及用于评估不平衡学习情景下的学习表现的当前评估指标进行批判性审查。此外，为了激发该领域的未来研究，我们还强调了从不平衡数据中学习的主要机遇和挑战，以及潜在的重要研究方向。我们的重点是对问题的性质、最先进的技术以及用于评估不平衡学习情景下的学习表现的当前评估指标进行批判性审查。此外，为了激发该领域的未来研究，我们还强调了从不平衡数据中学习的主要机遇和挑战，以及潜在的重要研究方向。我们的重点是对问题的性质、最先进的技术以及用于评估不平衡学习情景下的学习表现的当前评估指标进行批判性审查。此外，为了激发该领域的未来研究，我们还强调了从不平衡数据中学习的主要机遇和挑战，以及潜在的重要研究方向。

处理大数据多类不平衡问题的数据采样方法， 2020 年 2 月 14 日

类不平衡问题是近年来机器学习界的热门话题。如今，在大数据和深度学习时代，这个问题仍然存在。已经进行了大量工作来处理类不平衡问题，随机抽样方法（过采样和欠采样）是最广泛使用的方法。此外，已经开发了复杂的采样方法，包括合成少数过采样技术 (SMOTE)，并且它们还与诸如编辑最近邻居或 Tomek 链接（分别为 SMOTE+ENN 和 SMOTE+TL）等清理技术相结合。在大数据背景下，值得注意的是，类不平衡问题已通过采用传统技术得到解决，相对忽略了智能方法。因此，本文分析了启发式采样方法对大数据领域深度学习神经网络的能力和可能性，并特别分析了清洗策略。本研究基于从高光谱遥感图像中获得的大数据、多类不平衡数据集。分析了混合方法对这些数据集的有效性，其中数据集通过 SMOTE 清理，然后用这些数据训练人工神经网络 (ANN)，同时使用 ENN 处理神经网络输出噪声以消除输出噪声; 之后，ANN 再次使用结果数据集进行训练。获得的结果表明，当清洁策略应用于 ANN 输出而不是仅输入特征空间时，可以获得最佳分类结果。最后，

希望这些笔记有所帮助。

其它你可能感兴趣的问题

上一篇从多类分类模型中添加或删除节点有哪些选项？下一篇两组置换检验