识别导致多元数据集中异常的参数

数据挖掘 支持向量机 异常检测 自动编码器 k-nn 隔离森林
2022-03-09 05:24:13

我有一个包含大量预测变量的支付交易数据集。我正在尝试建立一个异常检测模型,并且我已经评估了各种算法/方法,例如隔离森林、kNN、自动编码器和一类 SVM。

我能够确定付款记录是否异常,但我无法确定导致异常的预测变量。

例如:

帐号 || 货币 || 受益人 || 金额 || isAnomaly(目标)

对于异常记录,我想确定货币变量是否导致异常或金额变量是否导致异常。

我已经浏览了以下许多其他来源,但找不到任何有用的东西。

数据库中的异常检测

多参数异常检测

我最近开始了我的数据科学之旅,如果有人能帮助我解决这个问题,我会很高兴。

2个回答

通常,负责决策 ML 模型的不是单个特征值。神经网络、随机森林、SVM 等旨在将输入转换到更有益的特征空间中,让他们更容易做出决策。

作为一个缺点,这使得人类的可解释性更加复杂。ML 方法的可解释性是一个完整的研究领域。

您可以查看一些可解释性方法。例如,对于自动编码器,您可以使用逐层相关性传播 (LRP)。https://arxiv.org/pdf/1708.08296.pdf

我了解您正在寻找一些可解释性。

但是,如果您回想一下特征工程,我们主要会删除价值较低的特征。这意味着所有剩余的功能都在起作用。

您可以在准确性和可解释性之间进行权衡-
物流回归和决策树将使您清楚地了解模型如何得出决策。
你可以试试