数据挖掘 - 与异常数据相比，正常数据数量非常多的异常检测中的实际问题 - 吾爱随笔录

数据挖掘机器学习异常检测异常

2022-03-07 01:40:22

如果异常数据的比例在1比10000个正常数据左右，即使真阴性率为99%，也会有100个假阳性数据，精度（TP/(TP+FP)）会很低。

如果这种异常检测要投入实际应用，我认为有必要建立一个预测精度相当高的模型。

世界上异常检测的实际例子是如何处理这个问题的？对于预测精度不高的难题，或者异常数量太少的问题，异常检测是否难以实际应用？

1个回答

我觉得你可能做出的假设是，这项任务需要机器学习模型，但老实说，统计方法和不太流行的算法是可用的。

现实情况是，由于严重的类不平衡和少量异常，在您的数据上训练 ML 模型将是一场斗争。这就是预训练模型很有吸引力的原因，尤其是神经网络。

为了了解选项的范围，我发现 Python 库pyOD是一个很好的资源。它有大约 30 种不同的方法来检测异常值。

其它你可能感兴趣的问题