如果异常数据的比例在1比10000个正常数据左右,即使真阴性率为99%,也会有100个假阳性数据,精度(TP/(TP+FP))会很低。
如果这种异常检测要投入实际应用,我认为有必要建立一个预测精度相当高的模型。
世界上异常检测的实际例子是如何处理这个问题的?对于预测精度不高的难题,或者异常数量太少的问题,异常检测是否难以实际应用?
如果异常数据的比例在1比10000个正常数据左右,即使真阴性率为99%,也会有100个假阳性数据,精度(TP/(TP+FP))会很低。
如果这种异常检测要投入实际应用,我认为有必要建立一个预测精度相当高的模型。
世界上异常检测的实际例子是如何处理这个问题的?对于预测精度不高的难题,或者异常数量太少的问题,异常检测是否难以实际应用?
我觉得你可能做出的假设是,这项任务需要机器学习模型,但老实说,统计方法和不太流行的算法是可用的。
现实情况是 ,由于严重的类不平衡和少量异常,在您的数据上训练 ML 模型将是一场斗争。这就是预训练模型很有吸引力的原因,尤其是神经网络。
为了了解选项的范围,我发现 Python 库pyOD是一个很好的资源。它有大约 30 种不同的方法来检测异常值。