我即将开始一个关于保险欺诈检测的项目,但没有因变量来训练模型并对其进行分类。
请提供我可以用来检测汽车和健康保险行业欺诈的算法。
提前致谢!
我即将开始一个关于保险欺诈检测的项目,但没有因变量来训练模型并对其进行分类。
请提供我可以用来检测汽车和健康保险行业欺诈的算法。
提前致谢!
根据定义,欺诈是一个受监督的概念。
没有无监督算法能够可靠地检测到这一点。充其量你会得到一些无监督方法的可疑案例,例如异常检测。
通常它是一个二元分类问题,即监督学习。在这些项目中要考虑的一件事是 FRAUD - NO FRAUD 标签之间的不平衡,因为前者的频率要低得多。但是在没有标签的情况下,我会先做一些特征工程并应用 PCA,以检查是否存在稍微偏离的实例。
自动编码器可用于发现异常(通过重建错误),因此也可用于欺诈检测。本文旨在使用自动编码器检测会计欺诈的一个示例是:Detecting of Anomalies in Large Scale Accounting Data using Deep Autoencoder Networks
但是,您需要某种方法来验证从这种方法中获得的结果。如果您根本没有标记数据,则需要有专业知识的人查看检测到的异常情况,以检查它们是否真的是欺诈行为。
我认为可以在这里应用聚类技术。
这样想,欺诈点很可能不会成为任何集群的一部分,因为大多数点不会是欺诈。
查看局部异常因子,您会有所了解。
此外,如果您事先有标签,请运行无监督算法,然后查看它捕获欺诈案例(异常值)的能力。