数据挖掘 - 使用 SMOTE 生成合成数据以提高不平衡数据的性能 - 吾爱随笔录

我目前有一个包含 21392 个样本的数据集，其中 16948 个属于多数类（A 类），其余 4444 个属于少数类（B 类）。我目前正在使用 SMOTE（Synthetic Minority Over-Sampling Technique）来生成合成数据，但对于应该生成多少百分比的合成样本以确保机器学习/深度学习模型的良好分类性能感到困惑。

我有几个选项：- 1. 第一个选项是生成 21392 个新样本，其中 A 类的 16904 个多数样本和 B 类的剩余 4488 个少数样本。然后，合并原始和综合生成的新样本。然而，我认为的主要缺点是我的整个数据集（原始+新）中少数样本的百分比将或多或少保持不变，我认为这违背了对少数样本进行过采样的目的。2. 第二种选择是生成 21392 个新样本，其中 16904 个多数样本和剩余 4488 个少数样本。然后，仅将原始数据与新数据的新生成的少数样本合并。这样，我的整体数据中少数（B类）样本的百分比会增加（从4444/21392 = 20.774 %到(4444+4488)/(21392+4488) = 34.513 %. 我相信这就是 SMOTE 的目的（增加少数样本的数量并减少整个数据集中的不平衡）。

我对使用 SMOTE 相当陌生，非常感谢您对这两个选项中的哪一个更好或我可能考虑的任何其他选项提出任何建议/评论。

from sklearn.model_selection import train_test_split from imblearn.over_sampling import SMOTE X_train, X_test, y_train, y_test = train_test_split(X, y, split_size=0.3) X_resample, y_resampled = SMOTE().fit_resample(X_train, y_train)