究竟什么是倾斜数据集?
数据挖掘
数据集
2022-02-12 08:56:24
2个回答
在链接的上下文中,倾斜的数据集是指具有类不平衡问题的数据集。他们正在尝试建立一个分类器,但他们的负面例子比正面例子多得多。这不是一个非常精确的术语,但我听说过在这种情况下使用过几次。
偏斜类是属于一个类的观察数量显着低于属于另一类的观察数量的场景。这些通常发生在窃电、欺诈性银行交易等中。有许多技术可以帮助减少这种不均匀性,如 SMOTE 等。