多维数据集的异常分数计算

数据挖掘 Python 异常检测
2022-03-08 08:14:18

我目前正在使用适用于单维数据集(时间戳和值)的异常分数计算方法。我想为多维数据集(时间戳和值 1 和值 2 和.....和值 N)计算相同的单个异常分数。

什么方法可以比较所有值并根据它们之间的关系计算异常分数?

3个回答

一种非常简单但有效的方法是自动回归,这意味着,您可以根据过去的数据训练回归器,并预测未来,如果预测偏离太多 - 那么您称之为异常。

为了使它更正式,如果我们表示vt0 作为时间戳的数据t0,我们训练一个回归模型R从中学习{vt0,,vtn1}.

您的异常分数是R(vt0,,vtn1)vtn

我认为您可以使用预测模型来预测下一个值ypred之后你有:

e=|ypredyt|, 使用 error 与 "alpha×std“系列。alpha=[1,10].

假设您的异常分数基于高斯概率分布,那么您没有理由不能将其扩展为多变量。