数据挖掘 - 哪些无监督机器学习算法可用于检测保险欺诈？ - 吾爱随笔录

数据挖掘机器学习数据挖掘

2022-02-23 16:34:11

我即将开始一个关于保险欺诈检测的项目，但没有因变量来训练模型并对其进行分类。

请提供我可以用来检测汽车和健康保险行业欺诈的算法。

提前致谢！

4个回答

根据定义，欺诈是一个受监督的概念。

没有无监督算法能够可靠地检测到这一点。充其量你会得到一些无监督方法的可疑案例，例如异常检测。

通常它是一个二元分类问题，即监督学习。在这些项目中要考虑的一件事是 FRAUD - NO FRAUD 标签之间的不平衡，因为前者的频率要低得多。但是在没有标签的情况下，我会先做一些特征工程并应用 PCA，以检查是否存在稍微偏离的实例。

自动编码器可用于发现异常（通过重建错误），因此也可用于欺诈检测。本文旨在使用自动编码器检测会计欺诈的一个示例是：Detecting of Anomalies in Large Scale Accounting Data using Deep Autoencoder Networks

但是，您需要某种方法来验证从这种方法中获得的结果。如果您根本没有标记数据，则需要有专业知识的人查看检测到的异常情况，以检查它们是否真的是欺诈行为。

我认为可以在这里应用聚类技术。

这样想，欺诈点很可能不会成为任何集群的一部分，因为大多数点不会是欺诈。

查看局部异常因子，您会有所了解。

此外，如果您事先有标签，请运行无监督算法，然后查看它捕获欺诈案例（异常值）的能力。

其它你可能感兴趣的问题