究竟什么是倾斜数据集?

数据挖掘 数据集
2022-02-12 08:56:24

像上面一样,我想知道倾斜数据集到底是什么。

stats.se.com的解释在我看来更像是我所说的不平衡数据集?

有什么区别?

2个回答

在链接的上下文中,倾斜的数据集是指具有类不平衡问题的数据集。他们正在尝试建立一个分类器,但他们的负面例子比正面例子多得多。这不是一个非常精确的术语,但我听说过在这种情况下使用过几次。

偏斜类是属于一个类的观察数量显着低于属于另一类的观察数量的场景。这些通常发生在窃电、欺诈性银行交易等中。有许多技术可以帮助减少这种不均匀性,如 SMOTE 等。