我处理欺诈检测(类似信用评分)问题。因此,欺诈性和非欺诈性观察之间存在高度不平衡的关系。
http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html很好地概述了不同的分类指标。Precision and Recall
或kappa
两者似乎都是不错的选择:
证明此类分类器结果的一种方法是将它们与基线分类器的结果进行比较,并证明它们确实比随机机会预测更好。
据我了解,kappa
这里可能是更好的选择,因为考虑了随机机会。从科恩的简单英语中,我了解到kappa
涉及信息增益的概念:
[...] 80% 的观察准确度与 75% 的预期准确度相比 50% [...]
因此,我的问题是:
- 假设它
kappa
是更适合这个问题的分类指标是否正确? - 简单地使用是否可以
kappa
防止不平衡对分类算法的负面影响?是否仍然需要重新(向下/向上)采样或基于成本的学习(参见http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf)?