我在 Kaggle 上玩信用欺诈检测数据集。一个不平衡的数据集,大约 0.1% 的欺诈交易。这些功能是由数据发布者完成的 PCA 练习中的 28 台 PC + 时间和 txn 数量以及合法/欺诈 txn 的类变量 0/1。
根据我的简要理解,共线性应该在 PCA 期间处理。但是,我发现 PC 仍然与欺诈案件相关(如果将数据集分解为合法/欺诈案件)。什么是使用朴素贝叶斯分类器最小化欺诈检测影响的好方法?
另一件事是我在 DS101 中被教导如何处理异常值。但是,鉴于欺诈本身可能是一个异常值,我似乎不认为删除异常值是一个明智的选择。有哪些常见的方法来处理异常值而不删除它们?
PS 我对数据科学相当陌生,所以欢迎任何关于上述主题的好的方向。它不像我在介绍性文本中看到的那样清晰。
谢谢。