共线性和异常值去除

数据挖掘 朴素贝叶斯分类器 离群值 共线性
2022-02-14 00:21:43

我在 Kaggle 上玩信用欺诈检测数据集。一个不平衡的数据集,大约 0.1% 的欺诈交易。这些功能是由数据发布者完成的 PCA 练习中的 28 台 PC + 时间和 txn 数量以及合法/欺诈 txn 的类变量 0/1。

根据我的简要理解,共线性应该在 PCA 期间处理。但是,我发现 PC 仍然与欺诈案件相关(如果将数据集分解为合法/欺诈案件)。什么是使用朴素贝叶斯分类器最小化欺诈检测影响的好方法?

另一件事是我在 DS101 中被教导如何处理异常值。但是,鉴于欺诈本身可能是一个异常值,我似乎不认为删除异常值是一个明智的选择。有哪些常见的方法来处理异常值而不删除它们?

PS 我对数据科学相当陌生,所以欢迎任何关于上述主题的好的方向。它不像我在介绍性文本中看到的那样清晰。

谢谢。

1个回答

在一般机器学习算法中,如果输入大型训练数据集,则能够处理异常值和多重共线性。PCA 是一种降维技术,肯定有助于解决多重共线性问题。朴素贝叶斯假设其输入特征是独立的(朴素这个词来自这个属性)。所以在 PCA 之后朴素贝叶斯有更多的机会得到更好的结果。如果您发现 PC 在欺诈案件中仍然存在关联,我认为这不是问题。但是,您可以尝试根据某些标准对数据进行预处理,删除高度相关的变量。插入符号库具有许多预处理功能,本教程涵盖了除软件应用程序之外的有趣内容。

https://topepo.github.io/caret/pre-processing.html

关于异常值我总是对任何异常值的删除持怀疑态度,除非可能是由于编码错误。