正如我们所知,我们可以对“图像数据集”执行数据增强。我们可以在图像上应用随机旋转、移位、剪切和翻转。
有没有增加表格小数据集的技术?我知道有像 SMOTE 这样的采样(过采样、欠采样)方法。但是过采样会生成合成数据,从而降低实际数据的真实性。而在图像增强中,我们通过简单地处理不生成合成数据的原始图像来生成新数据。
那么,是否有任何技术或想法可用于通过不生成合成数据来增加小型表格数据集?
正如我们所知,我们可以对“图像数据集”执行数据增强。我们可以在图像上应用随机旋转、移位、剪切和翻转。
有没有增加表格小数据集的技术?我知道有像 SMOTE 这样的采样(过采样、欠采样)方法。但是过采样会生成合成数据,从而降低实际数据的真实性。而在图像增强中,我们通过简单地处理不生成合成数据的原始图像来生成新数据。
那么,是否有任何技术或想法可用于通过不生成合成数据来增加小型表格数据集?
SMOTE 有许多变体。SMOTE应该被视为数据的保守密度估计,它保守地假设某个类的近邻之间的线段属于同一类。从这种粗略、保守的密度估计中采样绝对有意义,但不一定有效,具体取决于数据的分布。
有更高级的 SMOTE 变体可以进行更适当的密度估计。让我推荐我自己的包 smote-variants 实现 85 个 SMOTE 变体用于二进制过采样(其中 61 个也可用于多类过采样),以及进一步的模型选择功能:https ://github.com/gykovacs/smote_variants
您还可以从 GitHub 页面访问最近的比较研究,该研究清楚地显示了分类场景中过采样的好处(表 3):https ://www.researchgate.net/publication/334732374_An_empirical_comparison_and_evaluation_of_minority_oversampling_techniques_on_a_large_number_of_imbalanced_datasets